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机 械 工 业 出 版 社 


本 书 系统 地 介绍 了 一 个 实际 的 Pascal 编译 器 Neo Pascal 
结合 Neo Pascal 的 源 代码 ， 详 细节 
间 表 示 、 类 型 系统 、 优 化 技术 、 运 行 时 刻 的 存储 管理 


的 设计 与 实现 。 
述 了 LLCD 语 法 分 析 器 、 符 号 表 系 统 、 中 
、 代 码 生成 器 等 编译 器 


设计 的 核心 话题 。 各 章 都 附 有 少量 以 实践 应 用 为 


思考 题 ， 也 可 作为 课程 设计 选 题 


o 


与 国内 其 他 介绍 编译 技术 的 


区 


节 ， 而 不 仅仅 局 限于 理论 阐述 。 本 : 


书 相 比 , 本 


员 阅 读 ， 也 可 作为 高 等 院 校 计算 机 专业 的 编译 原理 课程 参考 书 。 


文档 。 
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E 的 练习 题 ， 既 可 作为 阅读 


更 关注 的 是 编译 器 的 实现 细 
可 供 从 事 编 译 器 设计 相关 工作 的 工程 人 


出 版 说 明 


随 着 信息 科学 与 技术 的 迅速 发 展 ， 人 类 每 时 每 刻 都 会 面 对 层 出 不 穷 的 新 技术 和 新 概念 。 
毫 无 疑问 ， 在 节奏 越 来 越 快 的 工作 和 生活 中 ， 人 们 需要 通过 阅读 和 学 习 大 量 信息 丰富 、 有 具备 


实践 指导 意义 的 图 书 来 获取 新 知识 和 新 技能 ， 从 而 不 断 提 高 自身 素质 ， 紧 跟 信 息 化 时 代 发 展 


的 步伐 。 


众所周知 ， 在 计算 机 硬件 方面 ， 高 性 价 比 的 解决 方案 和 新 型 技术 的 应 用 一 直 备 受 青睐 ; 
在 软件 技术 方面 ， 随 着 计算 机 软件 的 规模 和 复杂 性 与 日 俱 增 ， 软 件 技术 不 断 地 受到 挑战 ， 人 


们 一 直 在 为 寻求 更 先进 的 软件 技术 而 奋斗 不 止 。 目 前 ， 计 算 机 在 社会 生活 中 日 益 普及 ， 随 着 


Internet 延 华 到 人 类 世界 的 方方面面 ， 掌 握 计算 机 网 络 技术 和 理论 
于 信息 科学 与 技术 在 电工 、 电 子 、 通 信 、 工 业 控 


已 成 为 大 众 的 文化 需求 。 由 


|、 智 能 建筑 、 工 业 产品 设计 与 制造 等 专业 


人 迫切 需要 汲取 自身 领域 信息 化 所 带 来 的 新 理念 和 新 方法 。 


领域 中 已 经 得 到 充分 、 广 泛 的 应 用 ， 所 以 这 些 专业 领域 中 的 研究 人 员 和 工程 技术 人 员 越 来 越 


针对 人 们 了 解 和 掌握 新 知识 、 新 技能 的 热切 期 待 ， 以 及 由 此 促成 的 人 们 对 语言 简洁 、 内 
容 充 实 、 融 合 实践 经 验 的 图 书 迫 切 需 要 的 现状 ， 机 械 工业 出 版 社 适 时 推出 了 “信息 科学 与 技 


术 从 书 ” 这 套 从 书 涉及 计算 机 软件 、 硬件、 网 络 和 工程 应 用 等 内 容 , 注重 理论 与 实践 的 结合 ， 
内 容 实 用 、 层 次 分 明 、 语 言 流畅 ， 是 信息 科学 与 技术 领域 专业 人 员 不 可 或 缺 的 参考 书 。 
目前 ， 信 息 科 学 与 技术 的 发 展 可 谓 一 日 千里 ， 机 械 工业 出 版 社 欢迎 从 事 信 息 技 术 方面 工 


作 的 科研 人 员 、 工 程 技术 人 员 积 极 参与 我 们 的 工作 ， 为 推进 我 国 的 信息 化 建设 作出 贡献 。 


机 械 工 业 出 版 社 


与 其 他 自然 科学 相 比 ，i 
未 知 的 领域 有 待 探索 。 
计 语 言 是 远 远 不 够 的 。 一 些 看 人 


十 算 机 科学 上 
因此 ， 本 专业 学 生 或 了 


一 人 一 


号 


前 


"学习 或 应 


以 抽象 的 课程 才 是 


据 结 构 、 操 作 系 统 、 编 译 原理 、 


计算 机 系统 结构 、 


不 是 一 路 而 就 的 ， 如 何 学 习 与 
为 读者 揭示 编译 原理 的 精髓 。 
学 习 编译 技术 的 意义 


J 
美的 体系 ， 但 当 我 们 深入 其 内 


里 解 


备课 程 的 精髓 是 值得 关注 


= 的。 本 书 将 从 编译 器 设计 


诬 


有 人 认为 ， 编 译 技术 似乎 已 经 相当 成 熟 了 ， 继 续 深入 研究 是 没有 个 
王 何 科学 技术 都 是 发 展 变 化 的 。 表 面 上 看 ， 编 译 器 设计 的 高 层 问 题 似乎 已 经 形成 了 完 
bE。 现代 编译 器 设计 面临 的 挑战 是 来 


核 就 会 发 现 事实 并 非 如 出 


自 目标 计算 机 系统 结构 、 新 颖 
方面 的 因素 都 足以 颠覆 某 些 传 
加 允许 设计 者 采用 更 耗费 8 
者 而 言 
法 也 是 可 以 接受 的 。 

当然 ， 从 更 高 的 层次 上 讲 
术 。 作 为 一 个 系统 软件 的 设计 
可 能 是 一 个 漫长 而 艰辛 的 历程 ， 


用 古 


> 


寺 间 人 


程序 设计 语言 及 本 身 的 计 
统 到 算法 。 例 如 ， 在 


论 与 


空间 的 入 


这 是 令 人 兴奋 的 。 为 了 追求 目标 代码 的 更 优 ， 即 使 设计 一 些 时 空 复杂 度 条 


学 习 纺 


译 器 设计 


不 过 ， 这 才 是 经 典 学 和 


的 目的 还 不 仅仅 局 限于 其 本 身 的 型 
| 学 科 ， 其 解决 问题 的 思路 与 方法 更 是 值得 读者 细 引 
的 魅力 所 在 。 


PP， 村 


代价 。 对 于 优 


LU 


化 


L 


的 发 展 历史 并 不 和 久远， 是 较 新 的 学 科 体 系 ， 尚 有 许多 
[ 程 技术 人 员 仅 仅 满足 了 j 几 门 程 序 设 
提高 专业 人 员 “ 内 功 ” 修 为 的 秘技 ， 例 如 数 
计算 机 网 络 等 。 不 过 ， 经 典 课程 的 学 习 并 


的 角度 ， 


F 何 意义 的 。 实 际 


资源 等 多 方面 的 。 其 中 ， 任 何 一 
现代 编译 器 设计 中 ， 
法 ， 而 不 必 过 分 关注 


| 算 资源 的 增 
法 设计 


高 的 算 


品味 的 。 


以 品味 经 


习 与 研究 操作 系统 、 数 据 库 技术 、 计 入 


从 20 世纪 50 年 


日 


计 外 


全 


机 科学 界 的 


个 习 


扫 


动力 。 从 学 术 研究 的 角度 读 
设立 至 今 ， 


图 灵 奖 被 誉 为 “ 计 


中 ， 


[ 编 


机 界 的 诺 贝 尔 奖 ” 自 1966 


写 的 机 器 代码 的 性 能 
与 方法 ， 这 就 是 编译 技术 


E 论 与 技 


这 


为 目的 来 学 
机 网 络 、 编 译 技术 等 学 科 是 笔者 多 年 来 的 努力 方向 。 
尺 中 期 以 来 ， 编 译 器 设计 就 一 直 
Fortran 语言 之 父 John Backus 认为 ， 除 非 编译 器 生成 的 代码 与 手 了 ] 
常 接近 ， 否 则 程序 员 就 不 会 放弃 汇编 语言 程序 设计 的 思想 
F， 众 所 周 抽 
54 位 获奖 者 中 就 有 16 位 是 由 于 程序 设计 语言 及 编译 技术 的 研究 成 果 而 获 此 殊荣 


要 研究 领域 。 


非 


完 的 源 


年 


的 。 编 译 技术 在 计算 机 科学 领域 的 地 位 由 此 可 见 一 斑 。 

本 书 的 特点 

国内 讲述 编译 原理 的 书籍 并 不 少见 ， 但 是 基于 一 个 实际 编译 器 系统 讨论 相关 实现 的 资料 
却 相当 稀缺 。 同 样 ， 国 内 高 校 的 编译 原理 课程 也 存在 着 一 个 普遍 的 现象 : 讲述 的 内 容 与 实际 
编译 器 设计 之 间 存 在 着 鸿沟 。 对 许多 专业 学 生 而 言 ， 编 译 原理 可 能 更 像 是 一 门 充满 数学 符号 
与 定义 的 计算 机 课程 ， 因 此 很 难得 到 学 生 的 认可 。 

本 书 据 弃 了 传统 教材 只 讲理 论 的 不 足 ， 以 笔者 开发 的 编译 器 Neo Pascal 为 例 ， 从 词法 分 


析 、 语 法 分 析 、 语 义 分 析 、IR 生成 、 代 码 优化 、 目 标 代码 生成 等 角度 全 面 、 系 统 地 阐述 了 编 
去 分 析 器 的 实现 、 


译 器 设计 与 实现 


FP 的 许多 经 典 


现 、 类 型 系统 的 实现 、IR 的 设计 、 和 迭代 数据 流 分 析 、 了 优化 、 


配 的 代码 生成 器 的 实现 等 。 


话题 ， 包 括 LL (1) 语 没 


万 品 


符号 
运行 时 刻 管 


三 


表 的 设计 与 实 
、 基 于 模式 匹 
同时 ， 笔 者 也 引入 了 一 些 现代 编译 技术 中 的 观点 ， 对 传统 的 算法 


进行 了 一 定 的 改进 ， 


以 便 达 到 相 


不 是 一 本 以 阐述 编译 技术 的 相关 理论 与 算法 框架 为 主 的 原理 性 教材 ， 而 是 一 本 依托 实际 编 i 


前 官 


对 更 优 的 结果 。 与 传统 编译 教材 的 最 主要 区 别 在 于 ， 本 书 } 


下 


售 


器 项 目 讨论 其 实现 的 书 。 因 此 ， 本 书 将 不 涉及 与 Neo Pascal 实现 无 关 的 算法 或 话题 。 


在 笔者 看 来 ， 


源 代 码 是 一 种 


实现 ， 也 是 设计 的 载体 。 因 此 ， 本 书 不 是 一 本 简单 的 源 代码 


读者 的 并 不 局 限于 多 


笔者 坚信 ， 只 有 深刻 理解 算 


会 编译 技术 的 真 详 。 通 过 局 发 式 的 讲解 ， 引 领 读 者 进入 编译 技术 的 殿堂 正 是 撰写 本 书 的 有 


注释 文本 。 其 中 ， 更 多 体现 的 是 以 提出 问题 并 设计 解决 方案 为 核心 的 思想 。 笔 者 试图 传达 给 
i 译 器 源 代码 的 实现 ， 而 是 其 内 核 的 设计 原理 。 


法 分 析 与 设计 的 过 程 ， 并 实际 参与 编译 器 的 设计 ， 才 可 能 体 


的 。 无 论 是 对 于 在 校 的 相关 专业 学 生还 是 专业 技术 人 员 ， 本 书 都 是 非常 适合 自学 使 用 的 。 对 
于 有 志 于 涉足 编译 技术 领域 的 专业 人 员 ， 本 书 的 许多 观点 与 方法 更 是 值得 思考 。 

本 书 涉及 的 Neo Pascal 是 一 个 开源 的 编译 器 系统 ， 读 者 可 以 登录 http://neopascal. 
sourceforge.net， 获 得 最 新 的 项 目 源 代码 及 相关 文档 。 


本 书 的 读者 


本 书 预期 的 读者 是 至 少 掌握 
有 汇编 语言 程序 设计 、 计 算 机 系统 结构 、 操 作 系统 、 编 译 原理 等 课程 基础 的 读者 ， 学 习 本 书 


了 C++ 语言 及 数据 结构 的 计算 机 专业 人 员 或 在 校 学 生 。 对 于 


将 事半功倍 。 当 然 ， 在 涉及 相关 知识 时 ， 本 书 将 作 简 单 介绍 。 


内 容 概览 


第 1 章 概述 
本 章 将 介绍 一 些 关 于 程序 设计 语言 、 编 译 器 的 概念 性 话题 ， 例 如 ， 解 释 与 编译 、 编 译 器 


的 架构 等 ， 这 是 讨论 后 


Pascal。 


第 2 章 词法 分 析 


本 章 将 介绍 词 没 
现 ， 并 不 讨论 有 限 


续 主 题 的 基础 。 另 外 ， 本 章 也 将 简单 介绍 本 书 待 实现 的 高 级 语言 


第 3 章 语法 分 析 


本 章 将 讨论 形式 语言 
式 ， 是 语法 分 析 器 实现 的 基 耐 
理 与 实现 。 这 是 一 种 非常 经 


上 二 
o 


:分析 器 的 实现 。 与 传统 教材 不 同 ， 本 章 只 涉及 词法 分 析 器 的 设计 与 实 
自动 机 的 相关 理论 。 


述 方法 及 语法 分 析 器 的 实现 。 形 式 语言 是 一 种 语言 语法 的 描述 形 


在 语法 分 析 器 方面 ， 本 章 将 深入 讨论 LL(D 语 法 分 析 器 的 原 


第 4 章 符号 表 系统 


符号 表 是 编译 器 的 中 心 数据 库 。 不 过 ， 关 于 符号 表 的 话题 ， 传 统 教 材 却 涉及 其 


的 语法 分 析 方 法 ， 广 泛 应 用 于 许多 经 典 编译 器 中 。 


符号 表 的 功能 与 普通 数据 表 类 似 ， 但 两 者 结构 特点 相差 甚 远 。 


第 5 章 中 间 表 示 

中 间 表 示 是 一 种 由 设计 者 定义 与 使 用 的 内 部 语言 。 事 实 上 ， 经 典 的 中 间 表 示 形 式 非 常 之 
多 。 本 章 将 介绍 一 种 源 自 lcc 的 中 间 表 示 形 式 。 同 时 ， 笔 者 将 结合 个 人 的 体会 ， 介 绍 一 些 关 
于 中 间 表 示 的 设计 经 验 及 其 评价 机 制 。 另 外 ， 各 种 经 典 语 句 的 翻译 也 是 本 章 讨论 的 重点 。 


第 6 章 表达 式 语义 


本 章 将 涉及 类 型 系统 、 表 达 式 翻译 等 复杂 的 话题 。 其 中 ， 类 型 系统 将 讨论 类 型 描述 、 类 


型 兼容 、 类 型 转换 、 类 型 推断 等 ， 
等 语言 机 制 的 处 理 。 


日 


而 表达 式 翻译 更 多 关注 的 是 数组 、 指 针 、 结 构 、 函 数 调用 


电信 弃 器 设 j 
De 及 计 之 路 

第 7 章 优化 技术 

优化 技术 是 现代 编译 器 设计 关注 的 重点 。 鉴 于 优化 的 重要 性 ， 本 书 不 惜 耗费 大 量 篇 幅 详 
细 阐 述 各 种 基本 优化 算法 的 原理 与 实现 。 与 传统 教材 相 比 ， 本 书 不 局 限于 原理 的 介 
以 详细 的 源 代码 实现 ， 便 于 读者 理解 ， 这 是 本 书 的 特色 之 一 。 当 然 ， 本 书 并 不 是 一 本 以 介绍 
优化 算法 为 主 的 高 级 教材 ， 所 以 ， 并 不 涉及 那些 理论 抽象 、 实 现 复杂 的 算法 。 

第 8 章 运行 时 刻 的 存储 管理 

本 章 将 重点 介绍 栈 、 堆 式 存储 分 配 机 制 的 原理 及 其 实现 技术 。 这 是 一 个 实用 性 非常 强 的 
话题 ， 故 笔者 将 结合 一 些 和 常见 的 语言 现象 进行 深入 剖析 ， 包 括 动态 数组 、 字 符 串 、 可 变 参 
数 、 调 用 约定 等 。 

第 9 章 目标 代码 生成 

本 章 将 依托 i386 目标 机 实现 一 个 完整 的 代码 生成 器 。 笔 者 采用 了 一 种 基于 模式 匹配 实 
现 的 代码 生成 技术 ， 这 是 一 项 非常 高 效 且 灵活 的 生成 技术 。 同 时 ， 寄 存 器 的 分 配 也 是 本 章 讨 
论 的 重点 。 与 传统 教材 基于 模型 机 讨论 代码 生成 相 比 ， 基 于 目标 机 实现 代码 生成 器 可 能 复杂 
得 多 ， 包 括 寄存 器 的 分 配 、 指 令 的 选择 等 都 需要 考虑 许多 硬件 结构 的 限制 。 

第 10 章 GCC 内 核 与 现代 编译 技术 概述 

了 解 GCC 内 核 是 深入 学 习 先 进 编译 技术 的 基础 ， 本 章 将 以 有 限 的 篇 幅 介 绍 几 个 GCC 最 
核心 的 话题 ， 包 括 GIMPLE、SSA、RTL 等 。 可 以 毫 不 夸张 地 说 ， 它 们 正 是 GCC 的 魅力 所 
在 。 其 次 ， 笔 者 还 将 介绍 两 个 现代 编译 技术 的 研究 热点 ， 即 动态 编译 技术 与 并 行 编译 技术 。 
并且 还 将 提供 一 些 资源 与 材料 ， 供 读者 参考 使 用 。 
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1.1.1 


与 系 


第 1 章 概 


Reliable and transparent programs are usually not in the interest of the designer. 


| 11 编译 技术 概述 


程序 设计 语言 基础 
Intel 公司 的 David Kuck 院士 兽 经 将 编译 器 誉 为 “计算 机 科学 与 技术 的 星 后 ”， 它 是 应 用 


统 之 间 的 一 座 桥 粱 。 在 国 


领域 
除了 


内 ， 由 于 


述 


——Niklaus Wirth 


| 算 机 基础 科学 相对 薄弱 ， 人 们 通常 更 多 投身 于 应 用 


的 研究 ， 编 译 技术 并 不 太 受 到 人 们 的 关注 。 因 此 ， 基 于 这 方面 的 研究 成 果 也 相对 较 少 。 


早期 一 些 大 型 机 的 Fortran、Algol 编译 器 之 外 ， 


并 没有 真正 的 产品 级 编译 器 。 不 过 ， 这 


并 不 意味 着 研究 编译 技术 是 毫 无 价值 可 言 的 。 事 实 上 ， 作 为 计算 机 科学 的 组 成 部 分 之 一 ， 编 
译 技术 有 着 极其 崇高 的 地 位 ， 其 辉煌 的 历史 可 能 是 其 他 许多 学 科 无 法 比拟 的 。 众 所 周知 ， 图 
灵 奖 被 誉 为 “计算 机 界 的 诺 贝尔 奖 ”， 自 1966 年 设立 至 今 ，54 位 获奖 者 中 就 有 16 位 是 由 于 
程序 设计 语言 或 编译 技术 的 研究 成 果 而 获 此 殊荣 的 ， 见 表 1-1。 虽 然 有 些 大 师 的 身影 已 经 渐 
渐 远 去 ， 但 是 他 们 的 研究 成 果 却 为 人 津津 乐 道 
表 1-1 因 程 序 设计 语言 或 编译 技术 而 获 图 灵 奖 的 科学 

年 份 获 奖 者 获奖 原因 

1966 | Alan J Perlis 先进 编程 技术 和 编译 架构 方面 的 贡献 

1971 | John McCarthy Lisp 语言 、 程 序 语义 、 程 序 理论 、 人 工 智 能 方面 的 贡献 

1972 | E. W Dijkstra 对 开发 Algol 做 出 了 原理 性 贡献 

1977 | John Backus 在 高 级 语言 方面 所 做 出 的 具有 广泛 和 深远 意义 的 贡献 ， 特 别 是 在 Fortran 语言 方面 

1979 | Kenneth E. Iverson 在 编程 语言 的 理论 和 实践 方面 〈 特 别 是 APL) 所 进行 的 开创 性 的 工作 

1980 | C.A.R. Hoare 在 编程 语言 的 定义 和 设计 方面 的 贡献 ， 如 case 语句 、 公 理 语义 学 等 

1983 | Ken Thompson, Dennis M. Ritchie 在 通用 操作 系统 理论 研究 ， 特 别 是 UNIX 操作 系统 的 实现 上 的 贡献 。 开 发 实现 了 C 语言 
1984 | Niklaus Wirth 发 了 Euler、Algol-W、Modula 和 Pascal 一 系列 轿 新 的 计算 语言 

1991 | Robin Milner 在 可 计算 函数 逻辑 (LCF) 、ML 和 并 行 理论 (CCS) 这 三 个 方面 突出 的 页 献 

2001 | ole Johan Dahl. Kristen Nygaard 面向 对 象 编程 始 发 于 他 们 基础 性 的 构想 ， 这 些 构想 集中 体现 在 他 们 所 设计 的 编程 语 


言 SimulaI 和 Simula 67 中 


2003 | Alan Kay ee 思想 ， 领 导 了 Smalltalk 的 开发 团队 ， 以 及 对 PC 的 基 
山 | 十 页 阴 

六 | 和 | 0 60 程序 设计 语言 上 的 贡献 。Algol 60 语言 定义 清晰 ， 是 许多 现代 程序 设 

| me 对 于 优化 编译 器 技术 的 理论 和 实践 做 出 的 开创 性 贡献 ， 这 些 技术 为 现代 优化 编译 器 
和 自动 并 行 执行 打下 了 基础 

2008 | Barbara Liskov 在 计算 机 程序 语言 设计 方面 的 开创 性 工作 。 开 发 了 面向 对 象 编程 语言 CLU 


注 : 见 《ACM 图 灵 奖 :计算 机 发 展 史 上 


的 缩影 〈1966-2006) 》( 第 三 版 )， 吴 稚 龄 ， 崔 林 ， 高 等 教育 出 版 社 。 


B ER i 
罗 、 编译 器 设计 之 路 
ee 


从 20 世纪 50 年 代 到 80 年 代 末 ， 一 些 程 


序 设计 语言 的 兴起 ， 为 编译 技术 的 发 展 提供 了 


新 的 契机 。Ada、Fortran、Algol、Pascal、C、C++ 等 高 级 语言 编译 器 如 雨后春笋 一 般 诞 生 。 


作为 编 
系 与 实现 技巧 完全 梳理 漳 
之 际 ， 一 个 产 新 的 时 代 正 悄然 来 临 。 自 20 世纪 
把 编译 技术 的 研究 反 


译 领域 的 经 典 之 作 ,“ 龙 书 ” 也 是 撰写 于 这 一 时 期 的 ， 它 的 4H 
清晰 了 。 正 在 人 们 隐约 感到 编译 技术 (尤其 


8 现 将 原先 模糊 的 理论 体 
是 前 端 技术 ) 已 相对 成 熟 


下 出师 


计算 机 硬件 体系 的 飞速 发 展 ， 


90 年 代 至 今 ， 


E 向 了 新 的 高 峰 。 
编译 器 是 将 一 种 程 ) 
的 源 程序 的 系统 软件 。 习 惯 上 ， 将 前 


二 


设计 语言 编写 的 源 程序 等 价 
者 称 为 源 语 


也 转换 为 另 一 种 程序 设计 语言 编写 
言 ， 而 将 后 者 称 为 目标 语言 。 读 者 应 该 


对 语言 并 不 陌生 ， 汉 语 
呢 ? 


大 干 世 界 的 语言 一 般 可 以 分 为 两 类 ， 


、 英 语 、C、Java 等 都 是 


即 自然 语言 和 人 工 语言 。 


语言 。 那 么 ， 它 们 的 联系 与 区 别 是 什么 


吾 。 


自然 语言 就 是 日 常生 活 中 


使 用 的 语言 ， 

的 。 人 工 语言 则 是 为 了 特定 目的 、 月 
中 使 用 的 语言 、 工 程 技术 中 的 符号 、 
决 某 一 特殊 问题 而 定义 的 一 
人 了 
然 自 然 语言 没有 太 多 的 人 为 主观 
这 两 个 概念 即 可 ， 不 必 过 多 深究 。 


图 形 


如 汉语 、 英 语 。 自 然 语 言 通常 是 在 交流 过 各 
崩 途 ， 而 人 为 创造 出 来 的 语言 。 


语言 等 
口 启 可 o 


语言 ， 例 如 C、Java 等 就 是 为 了 解决 计算 机 程 
[语言 。 不 过 ， 自 然 语言 与 人 工 语言 之 间 并 非 如 入 们 所 想象 的 那样 存在 着 严格 的 界限 。 虽 
因素 ， 但 是 它 确实 也 是 由 人 类 创造 的 。 因 


科学 家 就 开始 对 语言 处 理 


完善 的 ， 并 不 是 刻意 定义 
网 如 ， 在 计算 机 程序 设计 
解 成 为 解 
序 设计 而 定义 的 


呈 中 逐渐 


实际 上 ， 读 者 可 以 将 人 工 语言 


， 读 者 


此 ， 读 者 只 需 了 解 


进行 了 深入 的 研究 ， 其 中 包含 最 


早 在 20 世纪 50 年 代 ， 计 算 忆 
重要 的 两 个 领域 : 一 是 自然 语言 理解 与 处 理 ， 
究 计 算 机 如 何 才 能 正确 识别 与 处 理 


日 


三 束 


设计 语言 的 发 展 是 分 不 开 的。 不 过 ， 两 者 的 研 


是 程序 设计 语言 及 其 编 


译 技 术 。 前 者 主要 研 


自然 语言 及 其 语义 。 而 后 者 主要 研究 如 何 设计 一 种 人 工 语 
使 之 有 效 地 完成 人 与 计算 机 之 间 的 无 障碍 交流 ， 计 算 机 之 所 以 能 普及 到 千家 万 户 与 程序 
究 


至 今 仍然 尚 待 完善， 例如， 至 今 人 类 还 无 法 


使 用 计算 机 
理解 输入 英 i 
在 自然 语言 理解 与 处 理 领域 
自然 语言 理解 与 处 到 


继续 探索 。 
不 是 本 书 的 研究 对 象 ， 


言及 其 编译 技术 的 话题 。 这 方面 的 研究 主要 包括 程 
器 设计 、 编 译 优化 技术 、 并 行 编译 技术 、 嵌 入 式 编译 技术 、 动 态 编译 技术 等 。 
h 某 些 领域 作 深 入 学 习 与 研究 。 


书 之 后 ， 可 以 根据 个 人 兴趣 选择 其 


自动 完成 英语 句子 到 汉语 句子 准确 无 误 的 翻译 。 这 主要 是 
在 句子 的 语义 ， 同 时 ， 也 无 法 让 计算 机 将 预定 语义 使 用 汉语 表达 输 晶 


由 于 无 法 让 计算 机 准确 


这 就 需要 


Do 


笔者 不 多 作 讨论 。 下 面 ， 来 谈 谈 程 序 设计 语 
序 设计 语言 设计 与 定义 、 高 级 语言 编译 
读者 阅读 完 本 


程序 设计 语言 是 一 种 人 工 语言 ， 而 人 工 语言 的 一 个 重要 特点 就 是 人 们 可 以 对 语言 作 
一 些 严格 的 规定 ， 从 而 不 必 过 多 关注 语言 表达 形式 的 不 确定 性 。 例 如 ,在 C 语言 中 ， 表 
达 式 a==10 只 能 用 于 描述 “变量 a 是 否 等 于 10” 这 一 种 语义 。 然 而 ， 在 自然 语言 中 ， 一 个 


句子 存在 两 种 以 上 语义 的 情 

到 底 是 什么 ? 
可 以 理解 为 : 
也 可 理解 为 : 


况 j 


不 罕见 。 例 如 ， 


“我 看 见 他 大 激动 了 。” 这 个 句子 表达 的 含义 


我 看 见 他 后 ， 我 太 激动 了 。 
我 看 见 他 时 ， 他 非常 激动 。 


这 里 “看 见 ” 的 宾语 选择 使 句子 存在 二 义 愧 


罕见 。 例 如 , 在 C 语言 中 ， 对 于 at++b 这 样 的 表达 式 ， 


2 


计 语言 中 却 很 
结果 到 底 应 该 


口 仆 


E。 然 而， 同样 的 问题 在 程序 
运 


读者 可 能 会 疑惑 


设 
算 


加 
下 


设计 一 门 程序 语言 及 划 
这 样 的 结果 


然 ， 


概 ” 述 | 第 1 党 


(a++) +b 还 是 a+ (++b)。 但 


民 据 C 语言 的 约定 ， 运 算 结果 


定 是 (at+)+b。 由 此 可 见 ， 在 


编译 器 时 ， 避 免 二 义 性 是 设计 者 考虑 的 首要 因素 。 至 于 为 什么 


过目 
丰 丰 


尼 ? 当 学 习 完 第 2 章 ， 读 者 一 定 会 了 解 C 语言 这 一 约定 的 现实 意义 与 必要 性 。 当 


这 并 不 意味 着 程序 设计 语言 中 是 绝对 不 存在 二 义 性 的 。 以 C 语言 为 例 ，(++a)+(++a) 的 取 


值 就 将 因 编 译 器 而 异 。 
氨 今 为 止 ， 程 序 设计 语言 仍 是 人 类 与 计 
操纵 与 控制 计 外 


算 机 3 


机 交流 的 主要 途径 ， 
机 。 从 第 一 台 计算 机 诞生 之 日 起 ， 人 类 就 始终 在 探索 一 种 有 效 的 方式 与 计 
行 对 话 交流 ， 使 之 能 为 人 类 服务 。 虽 然 时 隔 数 十 年 ， 计 算 机 能 识别 与 处 理 的 语言 仍 


它 的 应 用 领域 也 仪 限于 


然 是 二 进 制 形式 的 机 器 语言 描述 的 源 程序 。 当 然 ， 不 可 和 否认 二 进 制 机 器 语言 的 优点 非常 


多 ， 


决 这 一 坏 手 的 问题 ， 否 则 计 香 
等 程序 设计 语言 终于 横 空 出 世 。 
(一 种 比较 接近 机 器 语言 的 程序 
称 为 高 级 语言 。 
仅 是 说 明 语言 的 形式 与 机 器 语言 


但 机 器 语言 的 易 用 性 差 也 是 
机 进行 交流 也 是 非常 困难 的 。 在 20 世纪 50 年 代 ， 计 


不 可 回避 的 。 即 使 是 计 入 


机 专家 想 直 接 使 


机 器 语言 与 计 


读者 必须 注意 ， 


机 ; 


语言 ， 而 高 级 语言 指 的 是 与 机 器 语言 差别 较 大 而 与 自 


设计 语言 ) 称 为 低级 语言 ， 将 
低级 语言 与 高 级 语言 之 分 并 不 是 说 明 语 言 本 身 的 优 劣 ， 仅 


机 科学 家 们 就 已 经 意识 到 必须 解 


各 无 法 得 到 普及 。 经 过 多 年 努力 ， 汇 编 语 言 、C 、Pascal 
根据 语言 的 形式 与 特点 ， 习 惯 上 ， 将 机 器 语言 与 汇编 语言 


其 余 的 C、Pascal 之 类 的 语言 


”多 


的 相似 程度 。 所 谓 低级 语言 指 的 是 与 机 器 语言 比较 类 似 的 


然 语 言 比 较 类 似 的 语言 。 


于 这 些 非 


机 器 语言 的 诞生 ， 也 就 出 现 了 将 非 机 器 语言 等 价 翻 译 成 机 器 语言 的 需求 。 显 然 ， 将 非 机 器 


语言 翻译 成 机 器 语言 的 工作 不 能 由 


个 程 ) 


人 


因此 ， 人 们 试图 借助 于 


复杂 程度 也 不 尽 相 同 。 比 如 ，? 
高 级 语言 与 机 器 语言 差别 较 大 ， 所 以 其 
汇编 器 ， 而 将 后 者 称 为 编译 器 。 当 然 ， 有 些 书 上 对 于 汇 多 
将 其 称 为 纺 
高 级 的 程序 设计 语言 ， 而 目 
必须 澄清 一 点 ， 人 们 普遍 认为 编 
并 不 完整 。 实 际 上 ， 有 些 编 
个 由 Bjarne Stroustrup 7 
机 CPU 能 直接 处 理 C 或 者 Java 语言 ， 那 么 ， 低 级 语言 、 高 级 语言 及 编译 器 的 概念 也 将 被 


重新 诠释 。 


[ 编 


过 


手工 完成 ， 否 则 ， 非 机 器 语言 的 产生 就 没有 任何 意义 
自动 完成 翻译 工作 。 根 据 语言 不 同 ， 翻 译 工 具 的 
语言 比较 接近 机 器 语言 ， 所 以 其 翻译 工具 较 易 实现 。 而 


翻译 工具 的 实现 也 较为 复杂 。 习 惯 上 ， 


将 前 者 称 为 


今天 ， 虽 然 计 


标语 言 可 以 是 汇编 语言 、 


器 与 编译 器 并 没有 严格 区 分 ， 都 
译 器 ， 反 正 这 只 是 一 个 名 词 而 已 ， 读 者 不 必 深 完 。 编 译 器 的 源 语言 是 一 


较为 


机 器 语言 或 者 另 一 种 高 级 语言 。 
译 器 的 目标 语言 就 是 低级 语言 ， 这 个 观点 的 确 没有 错 ， 但 


译 器 的 目标 语言 可 能 是 某 一 种 已 存在 的 高 级 语言 ， 
并 发 的 C++ 编译 器 的 目标 语言 就 是 当时 的 C 语言 。 


例如， 第 一 
假设 未 来 的 计 


机 的 CPU 可 以 达到 天 文 级 的 处 理 速度 ， 但 是 识别 的 指令 类 


量 却 不 会 超 


过 1000 条 (PC 的 指令 规模 一 般 只 有 300~500 条 左右 )。 无 论 多 么 深奥 、 华 丽 的 高 级 语言 


源 代码 最 终 必 将 被 这 近 干 条 机 器 指令 等 价 蔡 换 。 相 对 于 
E 力 要 小 得 多 。 不 过 ， 程 序 设计 语言 也 有 其 自身 的 特 怕 
剑 的 精神 像 学 习 英 语 一 样 去 学 习 C 语言 。 
并 不 是 经 典 的 程序 设计 语言 ， 更 不 能 广 为 流 传 。 在 程序 设计 语言 发 展 的 历程 中 ， 这 种 


证 兰 
TIE 百 7 


达 色 
易学 。 不 可 能 要 求 程序 员 用 


上 年 磨 


自然 语言 而 言 ， 程 序 设 计 语 言 的 表 
E， 比 如， 程序 设计 语言 必须 简单 


过 于 复杂 的 


例子 并 不 罕见 。 


以 上 主要 讨论 了 语言 及 程序 设计 语言 
门 技术 ， 更 是 一 门 艺术 ， 优 秀 的 程序 设计 语言 


可 以 / 


1 一 些 基本 和 常识。 程序 设计 语言 的 设计 是 一 
为 流传 数 十 年 之 久 。 实 际 上 ， 


B ER i 
罗 、 编译 器 设计 之 路 
Se 


Algol 、Lisp、 Fortran、 Pascal 、 
PL360 等 经 } 


是 一 项 富有 挑战 性 且 能 带 
言 的 殿 和 党。 


(2 


1.1.2 程序 设计 语言 的 翻译 机 制 


在 


的 将 来 计算 机 准确 翻译 自 
译 又 是 如 何 进行 的 呢 ? 
程序 设计 语言 的 复杂 性 远 不 及 


翻译 工具 的 下 


首先 ， 


日 常生 活 中 ， 对 于 两 个 不 同体 系 的 
周知 ， 在 语法 、 语 义 等 体系 上 ， 不 同 的 自然 语言 之 间 都 存在 着 
言 的 翻译 工作 仍然 是 以 手工 完成 为 主 。 当 然 
然 语 言 会 成 为 可 能 。 那 么 ， 作 为 一 利 


自然 语言 ， 


的 想法 并 非 奢 望 。 从 20 世纪 60 年 代 


笔者 简单 介绍 一 下 “解释 ”。 运 上 


见 ， 例 如 ， 
程序 ， 
Shell 也 是 解释 执行 的 。 

下 面 ， 再 来 谈 谈 “编译 ”。 


为 纺 


Smalltalk、 APL、 ML、 
语言 都 是 历经 了 时 间 的 考验 才 传 承 至 今 的 。 设 计 程 序 设计 语 
来 无 限 成 就 感 的 工作 ， 和 希望 本 : 


Slimula 、 


Modula-1/2 、 


三 


及 编译 器 


节能 引领 读者 进入 程序 设计 语 


巨大 差异 ， 


自然 语言 而 言 ， 翻 译 工作 可 能 是 相当 复杂 的 。 众 所 
因此 ， 至 今 自然 语 
， 随 着 对 自然 语言 理解 的 深入 研究 ， 或 许 在 不 久 
人 工 语言 ， 程 序 设计 语言 的 翻 


因此 ， 试 图 让 计算 机 完成 程序 设计 语言 的 翻译 


开始 ， 许 多 计算 机 大 师 就 着 眼 了 
究 ， 成 就 了 不 少 优秀 的 程序 语言 ， 例 如 读者 熟知 的 C、Pascal 等 。 在 没有 任何 
理论 基础 的 情况 下 ， 大 师 们 进行 了 艰苦 的 探索 ， 构 造 了 程序 设计 
典 编译 技术 中 ， 程 序 设计 语言 的 翻译 模型 主要 有 两 利 


解释 方法 i 


译 程序 )， 这 也 是 本 书 讨论 的 重点 。 虽 然 编 


或 机 器 语言 是 最 为 常用 的 目标 语言 。 通 常 ， 编 译 器 指 的 就 是 把 用 


的 计算 机 汇编 语言 或 机 器 语言 的 


而 以 汇编 语言 或 机 器 语言 的 目标 程序 作为 输 
标 程 序 。 编 译 器 是 程序 设计 语言 翻译 中 应 用 极 广 的 软件 ， 例 如 ， 早 期 的 Turbo C、Turbo 


目 


Pascal， 现 代 的 Delphi、VC++ 等 都 是 编译 器 。 


这 里 ， 笔 者 必须 指出 ,“ 解 释 ” 与 “编译 ”只 是 两 种 翻译 方法 
接 与 某 种 程序 设计 语言 挂钩 。 例 如 ， 
言 。 严 格 地 说 ， 这 种 说 法 并 不 正确 。 笔 者 认为 程序 设计 语言 本 身 寺 
言 一 样 可 以 运用 解释 的 方法 设计 它 的 翻译 程序 ，BASIC 语言 


C 语言 


它 的 翻译 程序 。 


随 着 人 们 对 程序 设计 语言 翻译 技术 的 不 断 深入 研究 ， 有 一 种 新 的 翻译 方法 逐步 被 人 们 接 
备 释 相 结 合 的 方法 。 这 种 翻译 方法 的 思路 是 先 通过 编译 生成 一 个 目标 程序 ， 
而 是 一 种 编译 器 设计 人 员 定 义 的 一 个 较 低级 语 


受 ， 就 是 编译 与 
但 这 一 目标 程序 } 


不 是 真正 的 机 器 语言 程序 ， 


有 些 书 认为 BASIC 


译 器 的 


目标 语言 并 不 唯 


高 级 程序 设计 语言 及 其 


语言 翻译 体系 的 锥 型 。 在 经 
:解释 与 编译 。 
行 翻译 的 高 级 语言 工具 被 称 为 解 


释 程 序 。 解 释 程序 是 高 级 语言 翻译 程序 的 一 种 ， 它 将 某 一 高 级 语言 源 程序 作为 输入 ， 解 释 
一 句 后 就 提交 计算 机 执行 一 句 ， 直 至 源 程序 读 取 完 毕 。 
期 的 BASIC 语言 的 翻译 程序 就 是 解释 程序 。 另 外 ， 网 络 浏览 器 也 是 一 种 解释 
它 是 将 HIML 以 及 JavaScript 等 脚本 程序 进行 解释 执行 的 。 


解释 程序 在 计算 机 应 用 中 并 不 少 


再 如 ，UNIX/Linux 的 


运用 编译 方法 进行 翻译 的 高 级 语言 翻译 器 称 为 编译 器 〈 或 称 


， 但 是 ， 汇 统 


语言 


高 级 语言 源 程 序 翻译 成 等 价 


目标 程序 的 翻译 程序 。 编 译 器 把 
上 。 因 此 ， 在 乡 


后 吾 丰 


i 译 完成 后 


\ 五 二 昌 在 妨 亚 又 :五 二 
看 言 是 解释 语言 


高 级 语言 源 程序 作为 输入 ， 
， 编 译 器 会 生成 相应 的 


、 


这 


言 描述 的 程序 (可 能 近似 于 汇编 
所 示 。 


4 


语言 )。 


程序 


司 样 可 以 运 


:或 者 说 是 方案 ， 并 不 能 直 
、C 语 
[不 存在 解释 、 编 译 之 分 ， 
| 编 


有 经 过 相应 的 解释 器 解释 执行 ， 如 图 
早期 的 Lisp 语言 就 是 应 用 这 种 翻译 方式 实现 的 ， 它 使 用 一 种 类 似 于 语法 树 形式 的 语 


言 是 编译 语 


译 方法 设计 


1-1 


言 作为 目标 程序 的 描述 


近年 来 ， 人 们 热衷 于 编译 与 解释 


动态 编译 。 
即时 编 


1 


程序 时 ， 即 时 地 将 程序 编 


' 实 现 方案 被 广泛 应 


这 


法 实现 的 。Java 生成 的 目标 程 


动态 


序 以 提高 执行 效率 。 


关于 三 种 翻译 方式 的 优 缺 点 在 学 术 界 争论 已 入， 本 书 不 ; 


认 的 观点 ， 见 表 1-2。 笔 者 认为 ， 作 为 一 位 有 志 于 深入 学 习 与 有 


o 


zl 


图 1-1 “编译 十 解释 ”翻译 过 程 


结合 的 方法 探索 ， 提 出 了 两 种 改进 方案 : 即时 编译 、 


二 


， 例 如 ， 


Java 


bh 间 语 言 源 程序 


中 间 语 言 解释 器 


PH 
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解释 执行 


译 : 先 把 源 程序 翻译 成 一 种 比较 低级 的 内 部 语言 描述 的 程序 ， 然 后 ， 在 执行 装载 


译 为 目标 机 器 的 本 地 机 器 语言 程序 ， 然 后 直接 执行 机 器 语言 程序 。 
语言 编译 器 和 微软 的 NET 开发 平台 都 是 应 用 这 


方 


译 方式 的 基本 知识 还 是 有 必要 的 。 


序 是 称 为 字 节 码 的 一 种 较 低 级 语言 的 程序 。 而 .NET 开发 平台 
生成 的 目标 程序 是 面向 CLR (Common Language Runtime) 的 程序 。 
ij 译 : 为 了 避免 即时 编译 的 运行 代价 ， 开 始 时 了 
的 热点 〈 如 循环 、 递 归 调 用 等 )， 发 现 热 点 后 动态 编译 这 部 分 代码 ， 生 成 本 机 的 机 器 语言 程 


FE 常 解 释 执 行 ， 在 执行 中 ， 检 查 执 行 


行 深入 分 析 ， 只 是 列 出 几 个 公 


完 编译 技术 的 读者 ， 了 解 翻 


表 1-2 翻译 方式 的 特点 


执行 效率 执行 过 程 中 的 灵活 性 源 代码 保密 性 
纯 “ 解 释 ”方式 慢 高 完全 公 
纯 “ 编 译 ” 方 式 快 低 保密 
“编译 十 解释 ”方式 一 般 一 般 一 般 


1.1.3 ”编译 器 的 基本 结构 


作为 系统 软件 ， 


解决 方法 是 将 系统 分 解 成 若干 较 小 且 便 于 处 到 
“分 治 法 ”的 思想 。 
译 髓 、 操作 系统 、 网 络 通信 协议 等 复杂 的 大 型 
编译 器 的 翻译 过 程 是 非常 复杂 的 ， 


复杂 系统 ， 这 就 是 
现 乡 


编译 器 的 设计 与 实现 是 非常 复杂 的 。 对 于 一 个 相对 复杂 的 系统 ， 通 常 的 
的 小 系统 ， 分 别 实现 后 将 其 组 织 成 


个 完整 的 


实际 上 ， 计 


机 科学 家 正 是 运用 这 种 思想 来 设计 与 实 
统 软件 的 。 


处 。 


有 词 进行 识别 o 


2) 对 句子 的 语法 结构 进行 分 析 。 


3) 分 析 名 子 的 基本 含义 ， 进 行 初步 翻译 。 
4) 修饰 译文 ， 使 之 更 加 符合 汉语 的 表达 习惯 。 


5) 将 译文 整理 书写 记录 。 


旦 就 过 程 本 身 而 言 ， 与 


自然 语言 翻译 却 有 不 少 相近 之 


例如 ， 把 英语 句子 翻译 为 汉语 句子 时 ， 通 常 需要 经 过 下 列 几 个 步骤 : 
1) 对 句子 中 的 每 个 英语 让 


B ER i 
辐 、 编译 器 设计 之 路 
ee 


1. 词法 分 析 


词法 分 析 的 人 


E 务 就 是 对 输入 的 源 程 


EE 成、 代码 优化 、 代 码 生成 。 


编译 器 的 工作 过 程 与 自然 语言 翻译 过 程 比较 类 似 ， 亦 可 划分 为 五 个 阶段 : 词法 分 析 、 语 


法 分 析 、 语 义 分 析 与 中 间 表 示 和 4 


序 进行 扫描 分 析 ， 识 别 出 一 个 个 的 单词 


(Token) ， 并 进行 归 类 。 这 里 的 “单词 ”可 以 理解 为 源 程序 


的 字符 序列 ， 与 自 


点 ， 单 词 可 以 分 为 五 类 : 关键 字 、 标 识 符 、 常 量 、 运 算 符 、 界 符 。 


语句 为 例 : 


然 语 言 中 的 


if(aa && 10==0) aa=100; 


词法 分 析 的 结果 是 识别 出 如 下 的 单词 符号 : 


单词 概念 有 一 定 


区 别 。 


P 具 
一 般 而 言 ， 根 据 程序 设计 语言 的 特 


独立 含义 的 不 可 分 割 


以 一 个 C 语言 的 条 件 


关键 字 界 符 。” 标识 符 ” 运 算 符 ” 常 量 运算 符 
if ( aa &K 10 = 
常量 界 符 ” 标识 符 ” 运 算 符 ” 常 量 界 符 
0 ) aa 三 100 
这 里 ， 读 者 只 需 了 解 词 法 分 析 的 任务 即 可 。 其 算法 实现 将 在 第 2 章 中 详 述 。 


2. 语法 分 析 


语法 分 析 的 任务 就 是 在 词法 


单词 流 分 解 成 各 类 语法 单位 (语法 范畴 ) ， 如 “语句 ”、 


可 以 判断 如 下 语句 


法 分 析 ， 编 译 器 可 以 准确 无 误 地 } 


是 错误 的 。 


让 aa %% 10==9 aa=100; 


for(i<0) i++; 


分 析 的 基础 上 ， 根 据 程序 设计 语言 的 语法 规则 文法 ) ， 把 
“表达 式 ” 等 。 理 论 上 讲 ， 通 过 语 
名 断 输 入 源 程序 是 否 满足 语言 的 语法 规则 。 例 如 ， 语 法 分 析 


不 过 ， 实 际 情况 并 非 完 全 如 此 ， 这 主要 与 文法 定义 的 细 化 程度 有 直接 的 关系 。 当 程序 设 


计 语 言 的 设计 人 员 把 文法 定义 得 比较 宽泛 时 ， 也 就 意味 着 依据 此 语法 规则 ， 编 译 器 不 能 在 语 


法 分 析 阶 段 发 现 所 


不 像 词法 分 析 


分 析 是 编译 器 前 面 三 个 阶段 〈 合 称 为 前 端 ) 的 主 控 模块 。 语 法 分 
论 重点 讨论 的 话题 ， 


经 典 编 


bn Be 


译 


直观 的 输出 


士 四 
结果 ， 


的 语法 错误 ， 只 能 将 错误 遗留 给 后 续 阶 段 处 理 。 表 面 上 看 ， 语 法 分 析 并 
而 仅仅 完成 了 输入 源 程序 的 语法 判定 工作 。 实 际 上 ， 语 法 


将 在 第 3 章 中 详 述 。 


3. 语义 分 析 与 中 间 表 示 生 成 
语义 分 析 与 中 间 表 示 生 成 的 任务 就 是 在 语法 分 析 的 基础 上 ， 分 析 各 语法 单位 的 含 
义 ， 并 进行 初步 的 翻译 ， 即 生成 中 间 表 示 形 式 。 有 时 ， 这 两 个 任务 是 密 不 可 分 的 ， 故 通 


常 将 其 合 


变量 使 用 
的 语义 生 


前 是 否定 


式 ， 对 于 用 户 是 完 


成 语义 等 价 中 间 表 示 


并 为 一 个 阶段 讨论 。 语 


义 、 同 一 作 


j 域 内 变量 是 


乡 


全 透明 的 。 


多 式 。 中 间 表 示 是 一 种 | 


义 分 析 主 要 是 检查 输入 源 程序 的 语义 
否 重 名 等 。 中 间 表 示 生 成 将 根据 输入 源 程序 


的 设计 思想 与 算法 实现 是 


量 . 
A 


否 正 确 ， 例 如 ， 


中 间 表 示 形 式 的 定义 是 值得 深入 研究 的 ， 
了 编译 器 前 、 后 端的 设计 复杂 度 ， 也 决定 了 编译 器 前 端 与 目标 语言 之 间 的 耦合 程度 。 
间 表 示 的 形式 也 非常 多 ， 包 括 四 元 组 、 三 元 组 、 语 法 树 、DAG 图 等 ， 并 不 一 定 是 读者 理 


译 器 设计 人 员 定义 、 使 用 的 形 
因为 它 直 接 决定 
中 
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解 的 通常 的 代码 形式 。 例 如 ，lce 的 中 间 表 示 就 是 一 种 DAG 的 形式 。 当 然 ， 近 似 于 汇编 
指令 形式 的 四 元 组 、 三 元 组 可 能 是 最 为 常见 的 中 间 表 示 形 式 。 由 于 这 个 阶段 的 内 容 繁多 ， 
笔者 将 以 符号 表 系 统 、 中 间 表 示 、 表 达 式 语义 三 个 主题 予以 介绍 。 相 关内 容 分 布 在 本 书 的 
第 4 一 6 章 中 。 

4. 代码 优化 
代码 优化 的 任务 就 是 对 生成 的 中 间 表 示 进 行 优化 处 理 ， 得 到 占用 空间 较 小 、 执 行 效率 较 
高 的 目标 代码 。 由 于 中 间 表 示 是 由 计算 机 自动 生成 的 ， 不 可 能 像 手工 编码 那样 精炼 ， 因 此 ， 
编译 器 需要 借助 优化 处 理 对 目标 代码 进行 精简 。 随 着 前 端 技术 的 相对 成 熟 ， 优 化 技术 逐渐 成 
为 编译 技术 领域 的 核心 研究 课题 之 一 。 第 7 章 将 详细 讨论 优化 的 相关 话题 。 

5. 代码 生成 

代码 生成 的 任务 就 是 将 中 间 表 示 形 式 翻 译 成 目标 语言 描述 的 程序 代码 。 本 阶段 是 与 目标 
计算 机 硬件 系统 结构 密切 相关 的 ， 其 工作 也 非常 复杂 ， 如 寄存 器 的 调度 、 指 令 的 选择 、 指 令 
的 调度 等 。 并 且 ， 这 个 阶段 还 涉及 许多 与 目标 计算 机 硬件 系统 有 关 的 优化 技术 ， 称 为 “指令 
级 优化 ”。 通 常 ， 目 标 代 码 的 形式 可 以 是 汇编 语言 代码 、 机 器 语言 代码 、 其 他 语言 的 代码 。 
早期 ， 目 标 代 码 多 为 机 器 语言 代码 。 然 而 ， 随 着 汇编 器 、 链 接 器 的 成 熟 ， 汇 编 语言 代码 逐渐 
取代 了 机 器 语言 代码 ， 成 为 目标 代码 的 首选 。 近 年 来 ， 随 着 虚拟 机 技术 的 出 现 与 发 展 ， 目 标 
代码 的 概念 可 能 还 会 改变 。 例 如 ， 由 于 .NET Framework 的 盛行 ， 许 多 编译 器 〈 如 
Delphi .NET、ML、SmallTalk 等 ) 都 可 以 生成 面向 CLR 的 目标 程序 。 第 8 一 9 章 将 详细 讨论 
运行 时 环境 与 代码 生成 的 相关 技术 。 

以 上 五 个 阶段 是 一 种 典型 的 分 类 观点 。 事 实 上 ， 并 非 所 有 的 编译 器 都 包含 这 五 个 阶段 。 
例如 ， 有 些 简 单 语 言 的 编译 器 完全 可 以 省 去 中 间 表 示 形 式 ， 直 接生 成 目标 代码 。 再 如 ， 一 些 
并 不 苛求 优化 的 编译 器 完全 可 以 省 去 优化 阶段 。 这 里 所 提 及 的 五 个 阶段 只 是 大 多 数 编译 器 的 
设计 经 验 而 已 。 除 了 以 上 五 个 阶段 之 外 ， 有 些 编译 器 还 包括 两 个 非常 重要 的 组 成 部 分 : 符号 
表 管 理 、 出 错 处 理 。 


符号 表 是 一 系列 用 于 记录 各 个 分 析 阶 段 所 获取 信息 (如 变量 名 、 作 用 域 、 函 数 形 参 等 ) 
的 数据 表格 ， 这 些 表 格 的 维护 贯穿 于 整个 编译 过 程 。 显 然 符号 表 的 设计 和 管理 是 编译 器 构造 
过 程 中 的 一 项 极其 重要 的 任务 。 这 里 ， 设 计 者 更 多 关注 的 是 表格 的 完整 性 与 访问 效率 。 第 4 
章 将 详细 讨论 符号 表 的 构造 。 

7. 出 错 处 理 

对 于 输入 源 程 序 的 各 种 错误 ， 编 译 器 必须 给 出 比较 准确 的 出 错 报告 ， 以 便 用 户 及 时 准确 
地 定位 、 修 改 。 编 译 过 程 的 每 一 个 阶段 都 可 能 检测 出 错误 ， 其 中 ， 绝 大 多 数 错误 可 以 在 编译 
的 前 三 个 阶段 检测 出 来 。 当 然 ， 真 正 的 商用 编译 器 并 不 限于 此 ， 可 能 还 涉及 更 复杂 的 出 错 恢 
复 。 出 错 恢复 主要 是 当 编 译 器 检测 到 错误 之 后 ， 尽 可 能 按照 语义 修正 错误 。 注 意 ， 出 错 恢复 
的 目的 并 不 在 于 真正 修复 用 户 程 序 ， 而 只 是 试图 一 次 检测 更 多 的 错误 。 当 然 ， 这 是 基于 编译 
器 预测 机 制 实现 的 。 
图 1-2 描述 了 编译 器 各 个 阶段 之 间 的 关系 ， 读 者 只 需 参考 结构 图 了 解 各 个 阶段 的 任务 及 
其 输入 、 输 出 情况 即 可 。 


B ER i 
辐 、 编译 器 设计 之 路 
ee 


输入 源 程 序 


答 
号 
表 
管 
理 


区 


DS 
可 
SN 
时 
莹 


这 里 ， 还 有 必要 了 解 一 个 比较 重要 的 概念 : 端 〈End) 。 

根据 完成 任务 不 同 ， 可 以 将 编译 器 的 组 成 部 分 划分 为 前 端 (Front End) 与 后 端 (Back 
End) 。 前 端 主 要 指 与 源 语言 有 关 但 与 目标 机 无 关 的 部 分 ， 包 括 词法 分 析 、 语 法 分 析 、 语 义 
分 析 与 中 间 表 示 生 成 。 后 端 主要 指 与 目标 机 有 关 的 部 分 ， 包 括 代 码 优化 和 目标 代码 生成 等 。 
“ 端 ” 概 念 的 提出 对 于 编译 技术 的 发 展 起 到 了 至 关 重 要 的 作用 ， 它 使 编译 器 的 框架 更 明晰 ， 
更 利于 集成 与 构造 。 


1.2 Pascal 语言 基础 


1.2.1 Pascal 语言 简介 


本 书 描述 的 编译 器 是 笔者 开发 的 Neo Pascal， 这 是 一 个 基于 标准 Pascal 的 实际 编译 器 。 
Pascal 是 由 瑞士 苏 黎 士 理 工学 院 Niklaus Wirth 教授 在 1971 年 设计 实现 的 ， 它 的 语法 结构 源 
于 Algol 语言 。Wirth 教授 以 17 世纪 法 国 著名 数学 家 Pascal 的 名 字 为 这 种 优美 严谨 的 程序 设 
计 语 言 命名 。Pascal 盛行 30 年 ， 成 为 PC 平台 上 最 受 欢迎 的 程序 设计 语言 之 一 。 不 过 ， 随 着 
C 语言 体系 〈C 语言 、C++、Java 等 ) 的 不 断 成 熟 壮 大 ， 对 于 某 些 读者 而 言 ，Pascal 语言 可 
能 已 经 渐渐 淡出 了 人 们 的 视野 。 笔 者 之 所 以 仍然 选择 标准 Pascal 语言 作为 设计 蓝本 ， 主 要 有 
如 下 几 个 原因 : 

(1) Pascal 语言 是 一 门 严 说 且 优 美的 程序 设计 语言 。 

(2) Pascal 语言 功能 非常 强大 ， 适 合 各 种 系统 软件 、 应 用 软件 设计 。 

《3 ) Pascal 语言 数据 类 型 非常 丰富 。 例 如 ， 集 合 类 型 、 函 数 类 型 、 指 针 类 型 等 。 

(4) Pascal 语言 的 语义 复杂 度 不 如 C 语言 ， 故 有 利于 编译 器 设计 与 实现 。 同 时 ， 便 于 初 


学 者 学 习 理 解 。 
正 由 于 上 述 优点 ，Pascal 仍然 是 
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法 设计 的 主要 


优美 。 


息 学 竞赛 ) 三 种 参赛 程序 设计 语言 2 


述 语言 ， 也 是 IOI《〈 国 际 奥林匹克 信 


一 。 相 信 读 者 读 完 本 书后 ， 


一 定 能 够 领略 到 Pascal 的 


下 面 简单 介绍 一 下 Pascal 语言 ， 有 Pascal 语言 基础 的 读者 可 以 跳 过 这 些 内 容 。 不 过 ， 
Pascal 语言 程序 设计 并 不 是 本 书 的 主题 ， 因 此 ， 不 可 能 花 大 量 篇 幅 详 述 。 笔 者 将 对 照 C 语言 


Pascal 


1.2.2 ”Pascal 程序 基本 组 成 


请 读者 先 阅读 下 列 两 段 程序 ， 比 较 计算 加 


进行 讲解 ， 以 便 读者 快速 入 门 。 当 然 ， 读 者 也 可 以 参考 《Pascal 语言 程序 设计 》 《Turbo 
j 户 手册 》 等 。 


周 长 程 序 的 C 与 Pascal 的 描述 。 


例 1-1 计算 圆 的 周 长 ， 代 码 见 表 1-3。 
表 1-3 C 与 Pascal 程序 的 比较 

C 语言 程序 了 Pascal 语言 程序 
1 float rc; 1 program main(inputoutpub; /程序 首部 
2 float Calc(float r) 2 var r,c:real; // 声 明 部 分 
3 { 3 function Calc(r:real):real; 
4 return 2*r*3.1416; 4 begin 
5 > 5 result:=2*r*3.1416; 
6 main() 6 end; 
了 7 begin /执行 部 分 
8 scanf("%f",&r); 8 read(r); 
9 c=Calc(?); 9 c:=Calc(n); 
10 printf("%f"',c); 10 write(r); 
11 : 11 end. 

下 面 简单 分 析 上 述 Pascal 程序 的 基本 结构 。 

一 个 完整 的 Pascal 程序 包含 三 个 音 


» 


编译 器 ， 程 序 注释 
1. 程序 首部 
第 1 行 称 为 程序 首部 。program 是 保留 字 ， 接 着 是 程序 名 ，Pascal 的 程序 名 是 任意 的 ， 


其 后 的 input、output 是 主 程序 参数 ， 但 这 里 的 参数 与 C 语言 里 的 argv 不 


并 不 一 定 是 main 。 


分: 程序 首部 、 声 明 部 分 、 执 行 部 分 。 不 同 的 Pascal 
的 形式 也 有 所 不 同 ，Neo Pascal 用 “//” 或 “(* *)” 表 示 。 


同 ， 并 不 是 用 了 
Pascal 并 不 关注 这 两 个 参数 ， 仅 仅 是 为 ] 
2. 声明 部 分 

声明 部 分 依次 包含 程序 的 单元 声明 、 标 号 声明 
EE， 简单 说 明 三 点 : 
(1) 声明 部 分 是 可 选 的 ， 对 于 简 


或 过 程 声明 。 这 是 


传递 命令 行 参 数 的 。 而 且 不 同 的 编译 器 对 主 程序 参数 的 支持 是 不 同 的 ，Neo 
E 式 上 兼容 标准 Pascal 而 已 。 


、 常 量 声 明 、 类 型 声明 、 变 量 声明 


单 的 Pascal 程序 可 以 没有 声明 部 分 。 
(2) Pascal 程序 的 声明 是 有 顺序 要 求 的 ， 必 须 严格 按照 上 述 顺 序 进 行 声明 ， 不 可 倒置 。 


性 i 
驴 ”编译 器 设计 之 路 
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(3) 函数 或 过 程 声明 就 是 用 于 声明 自 定义 函数 的 。 

而 函数 或 过 程 声 明 又 包含 函数 首部 〈 例 1-1 中 程序 第 3 行 )、 声 明 部 分 〈 例 1-1 中 
省 略 了 )、 执 行 部 分 〈 例 1-1 中 程序 第 4~6 行 )。 在 主 程序 声明 部 分 声明 的 对 象 是 在 全 
局 有 效 的 。 在 子 函 数 或 过 程 声明 部 分 声明 的 对 象 只 在 其 声明 函数 或 过 程 内 有 效 ， 即 局 部 
有 效 。 

3. 执行 部 分 

执行 部 分 就 是 用 于 描述 浮 数 或 过 程 的 语句 序列 。 在 例 1-1 中 第 8 行 、 第 10 行 就 是 调用 
输入 /输出 函数 完成 IO， 这 与 C 语言 的 scanf、printf 相似 。 第 9 行 是 调用 Calc 函数 并 将 返回 
值 赋 给 变量 ce。Pascal 的 语句 种 类 与 C 语言 非常 类 似 ， 后 续 章节 中 将 详细 讲述 。 


1.2.3 ”Pascal 的 声明 部 分 


声明 部 分 主要 包含 单元 声明 、 标 号 声明 、 和 常量 声明 、 类 型 声明 、 变 量 声明 、 函 数 或 过 程 
声明 。 

1. 单元 声明 

单元 声明 用 于 声明 程序 所 需 包含 的 其 他 单元 文件 ， 功 能 与 C 语言 的 #include 类 似 ， 但 是 
其 处 理 与 蕉 nclude 是 完全 不 同 的 。#include 是 由 预 处 理 器 识别 的 ， 而 Pascal 的 单元 声明 USES 
是 由 Pascal 编译 器 处 理 的 。 

声明 格式 : 


| OO 
Ee 


例如 : USES aa,bb,cc; 

2. 标号 声明 

标号 声明 用 于 声明 程序 所 包含 的 标号 ， 功 能 与 C 语言 的 标号 非常 相似 ， 只 是 C 语言 的 
标号 并 不 需要 事先 声明 就 可 以 直接 使 用 。 


声明 格式 : 
TO- 
例如 : LABEL L1,L2,L3; 


3. 常量 声明 
常量 声明 用 于 声明 程序 所 使 用 的 常量 ， 与 C 语言 的 #define 宏 定义 是 有 所 不 同 的 。Pascal 


Om 5 CO) 
(st) 
例如 : CONST a=12; b=1.2+3.1:c="r"; 
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注意 : 常量 声明 部 分 必须 以 关键 字 CONST 开始 ， 等 号 右边 的 常量 既 可 以 是 普通 的 常 
量 ， 也 可 以 是 常量 表达 式 ， 由 编译 器 在 编译 阶段 计算 得 到 。 标 准 Pascal 中 对 于 常量 的 类 型 是 
由 编译 器 根据 常量 值 自动 判定 的 ， 并 且 只 允许 使 用 整 型 、 实 型 、 字 符 型 、 字 符 串 型 四 类 常 
量 。 不 过 ， 一 些 商用 编译 器 对 常量 声明 进行 了 扩展 ， 例 如 ， 多 许 由 用 户 指定 常量 的 类 型 或 者 
允许 声明 构造 类 型 的 常量 等 。 

4. 类 型 声明 

类 型 声明 用 于 声明 用 户 自 定义 的 类 型 ， 功 能 与 C 语言 的 typedef 非常 相似 。 


声明 格式 : 

CDTESO- 天 TO 
例如 : TYPE a=INTEGER;b=ARRAY [1..10] OF INTEGER; 
C 语言 声明 : typedef int a;typedef int b[10]; 


类 型 声明 部 分 必须 以 关键 字 TYPE 开始 。“ 类 型 ”可 以 是 基本 类 型 名 用 户 自 定义 类 型 
名 ， 亦 可 以 是 匿名 类 型 定义 。 关 于 类 型 定义 的 详细 说 明 参 见 后 续 章 节 。 
5. 变量 声明 


变量 声明 用 于 声明 程序 所 使 用 的 变量 ， 功 能 与 C 语言 的 变量 声明 类 似 。 


声明 格式 : 
符 列 表 


例如 : VAR ab:INTEGER; 
c:RECORD a,b:INTEGER;END; 
C 语言 声明 : int a; 
struct { inta,b; }b; 
变量 声明 部 分 必须 以 关键 字 VAR 开始 。“ 变 量 标 识 符 列表 ”是 一 个 用 逗号 阳 开 的 标识 符 
冒号 后 面 的 “类 型 ”可 以 是 类 型 标识 符 ， 也 可 以 是 匿名 类 型 声明 ， 如 上 例 的 c 变量 声 


明 形式 。 

6， 函数 或 过 程 声明 

函数 或 过 程 声明 用 于 声明 程序 所 包含 的 用 户 自 定义 函数 或 过 程 。 函 数 或 过 程 声明 一 般 包 
含 声明 首部 、 声 明 部 分 、 执 行 体 部 分 三 部 分 。 其 中 ， 声 明 部 分 与 主 程序 的 声明 部 分 类 似 ， 同 
样 包含 变量 、 常 量 、 类 型 等 声明 部 分 。 那 么 ， 函 数 或 过 程 的 声明 部 分 中 是 否 还 可 以 包含 函数 
或 过 程 声 明 呢 ? 答案 是 肯定 的 ， 标 准 Pascal 规定 可 以 租 套 声明 函数 或 过 程 ， 即 函数 或 过 程 仍 
然 可 以 典 套 声明 子 函 数 或 过 程 。 然 而 ，C 语言 是 不 允许 函数 拒 套 声明 的 。 函 数 或 过 程 庶 套 声 
明 的 优 劣 在 此 不 便 评 说 ， 但 包括 C、C++、BASIC、Java 等 在 内 的 许多 高 级 语言 都 不 允许 。 
与 其 他 高 级 语言 比 ，Pascal 舱 套 声明 机 制 并 无 明显 优势 ， 反 倒 使 编译 器 的 存储 分 配 算法 变 得 
复杂 。 这 或 许 正 是 其 他 高 级 语言 不 允许 这 一 声明 机 制 的 重要 因素 之 一 。 考 虑 到 读者 可 能 是 初 
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学 编译 技术 ， 为 了 简化 设计 与 实现 ， 故 Neo Pascal 编译 器 不 允许 函数 或 过 程 谷 套 声明 ， 这 与 
标准 Pascal 有 一 定 区 别 。 
声明 格式 : 


例如 : FUNCTION aa(a:INTEGER:b:CHAR):REAL: 
BEGIN … END; 
C 语言 声明 : floataa(inta,char b){ * } 


注意 : 以 上 的 声明 形式 与 标准 Pascal 规范 是 存在 一 定 差异 的 。 标 准 Pascal 规定 过 
程 或 函数 的 形 参 除了 值 参 数 、 变 量 参 数 (与 C++ 的 引用 参数 类 似 )， 还 可 以 是 过 程 参 
数 、 函 数 参 数 。Neo Pascal 参考 Delphi 采用 函数 过 程 指针 代 蔡 函数 、 过 程 参 数 。 标 准 
Pascal 语言 规定 函数 或 过 程 的 形 参 类 型 或 返回 类 型 必须 是 类 型 名 ， 不 允许 为 匿名 类 型 。 
形 如 “FUNCTION AA(A:ARRAY[1..10] OF INTEGER):BOOLEAN;” 的 函数 首部 是 非 
法 的 。 

另外 ，Pascal 语言 还 有 两 个 特点 : Pascal 语言 是 大 小 写 不 敏感 的 ， 这 与 C 语言 是 不 同 
的 ;Pascal 语言 与 C 语言 一 样 对 于 用 户 程序 的 阶梯 型 缩 进 是 忽略 的 ， 这 与 Python 语言 是 不 
同 的 。 


1.2.4 Pascal 的 类 型 


1， 类 型 简介 

Pascal 语言 的 数据 类 型 非常 丰富 。 关 于 Pascal 语言 数据 类 型 的 分 类 标准 并 不 唯一 ， 笔 者 
从 编译 器 设计 观点 出 发 ， 将 数据 类 型 分 为 三 类 : 基本 类 型 〈 也 可 以 称 为 简单 类 型 )、 构 造 类 
型 、 指 针 类 型 。 
基本 类 型 主要 包含 : 整 型 、 实 型 、 字 符 型 、 字 符 串 型 、 布 尔 型 、 枚 举 型 。 
构造 类 型 主要 包含 : 数组 、 记 录 《〈 相 当 于 C 语言 的 结构 )、 集 合 、 文 件 、 函 数 过 程 等 。 
指针 类 型 主要 包含 ， 数据 指针 。 

标准 Pascal 语言 中 引入 了 函数 过 程 类 型 ， 该 类 型 源 于 函数 式 语言 ， 在 命令 式 语言 中 并 不 
多 见 。Pascal 语言 的 函数 过 程 类 型 与 C 语言 的 函数 指针 比较 类 似 ， 实 现 机 制 相 似 ， 但 还 是 存 
在 概念 的 差别 。 不 过 ， 一 些 商用 Pascal 编译 器 已 经 不 再 区 别 函数 指针 与 函数 过 程 类 型 ， 统 一 
使 用 函数 指针 实现 。 函 数 指针 是 现代 程序 设计 语言 的 一 个 重要 机 制 ， 对 于 面向 对 象 编译 技术 
研究 共有 现实 意义 ， 故 后 续 章节 中 将 深入 讨论 函数 指针 的 实现 技术 。 

2. 基本 类 型 

根据 不 同 的 精度 要 求 ，C 编译 器 的 实 型 、 整 型 还 可 以 细 化 为 长 整 型 、 短 整 型 、32 位 整 
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型 、 单 精度 实 型 、 双 精度 实 型 等 。 同 样 ， 各 种 版 本 的 Pascal 编译 器 也 对 整 型 、 实 型 进行 了 
化 。Neo Pascal 编译 器 参考 了 Delphi 语言 的 数据 类 型 ， 实 现 了 其 中 最 为 常用 的 12 种 基本 类 


型 ， 见 表 1-4。 


o 


表 1-4 Neo Pascal 基本 数据 类 型 


BYTE unsigned char 单字 节 无 符号 整 型 SINGLE float 单 精度 型 
WORD unsigned short 双 字 节 无 符号 整 型 REAL double 双 精 度 型 
LONGINT unsigned int 0g 字 节 无 符号 整 型 字符 型 
CARDINAL unsigned int 1 字 节 无 符号 整 型 CHAR char 字符 型 
SHORTINT char 单字 节 有 符号 整 型 布尔 型 
SMALLINT short 双 字 节 有 符号 整 型 BOOLEAN C++ 的 bool 布尔 型 
INTEGER int 四 字 节 有 符号 整 型 字符 串 型 
STRING 类 似 C 的 char* 字符 串 型 


3， 枚 举 类 型 

枚 举 类 型 (enum) 通过 预定 义 列 出 所 有 值 的 标识 符 来 定义 一 个 有 序 集合 ， 这 些 值 的 次 
序 和 枚 举 类 型 说 明 中 的 标识 符 的 次 序 是 一 致 的 。Pascal 的 枚 举 与 C 语言 的 枚 举 基 本 类 似 。 
Pascal 规定 枚 举 类 型 的 枚 举 值 个 数 不 允 许 超过 255 个 。 

声明 格式 : 


例如 : VAR a(SUNMON,TUE,WED,THU,FRLSAT) 

4. 集合 类 型 

Pascal 的 集合 (set) 类 型 源 自 数学 的 集合 概念 。 集 合 是 以 已 知 有 序 类 型 值 的 列表 构造 而 
成 的 ， 称 已 知 序数 类 型 为 基 类 型 。Pascal 对 集合 元 素 类 型 有 严格 的 规定 ， 集 合 元 素 的 类 型 必 
须 是 有 序 类 型 ， 且 所 有 元 素 值 必须 界 于 0 一 255 之 间 。 因 此 ， 基 本 类 型 中 的 BYTE、CHAR 
类 型 及 枚 举 类 型 是 有 效 的 集合 基 类 型 。 在 标准 Pascal 中 ， 还 可 以 是 子 界 类 型 ， 而 Neo Pascal 
并 不 支持 子 界 类 型 。 与 数学 的 集合 类 似 ， 集 合 元 素 之 间 是 不 存在 顺序 关系 的 ， 即 集合 [2，3] 


与 [3，2] 是 相等 的 。 


声明 格式 : 
© 入 
例如 : a:set of char; 
表示 一 个 集合 值 的 最 通用 的 方法 是 逐个 枚 举 集 合 的 元 素 ， 并 用 方 括号 [] 括 起 来 。 
例如 : 


[3，9，15，23]: 表示 由 3，9，15，23 组 成 的 集合 。 


Se 


ANS AS 


日 下 标 可 以 由 月 
日 下 标 从 0 开始 。 


编译 器 设计 之 路 
[1，'p，%]， 表示 由 字符 1，p，z 组 成 的 集合 。 
集合 的 运算 ; 

+ : 集合 “并 ”运算 。 

* ;集合 “ 交 ” 运算 。 

- ;集合 “ 差 ” 运算 。 


in: 


检查 两 个 集合 所 包含 的 元 素 是 否 相 同 。 

检查 两 个 集合 是 否 不 相等 。 

检查 第 一 个 集合 中 的 元 素 是 否 都 在 第 二 个 集合 中 出 现 。 
检查 第 一 个 集合 中 的 元 素 是 否 包含 全 
检查 集合 基 类 型 的 


a 
个 元 素 是 否 属于 集合 。 


例如 : [A，B，C]+[D] 等 于 [A，B，C，D]。 
[A，B，C]*[A] 等 于 [A]。 
[A，B，C] 一 [A] 等 于 [B，C]。 
[A，B，C]=[A，B，C] 等 于 TRUE。 
[A，B，C]<>[C，B，A] 等 于 FALSE。 


5. 数组 类 型 


数组 类 型 (array) 是 程序 中 最 常 
元 素 组 成 的 数据 结构 。Pascal 的 数组 与 C 语言 的 数组 基本 类 似 ， 唯 


二 个 集合 中 的 所 有 元 素 。 


j 的 构造 数据 类 型 ， 用 来 描述 | 


声明 格式 : 


户 定 义 。 例 如 ， 月 


固定 数量 的 同一 类 型 的 


的 不 同 就 是 Pascal 的 数 


日 户 可 以 定义 一 个 下 标 从 20 开始 的 数组 。 而 C 语言 规定 数 


“下 标 类 型 ”可 以 是 任意 有 序 类 型 。 由 于 其 他 


I 序 类 型 作为 数组 下 标的 实际 意义 不 大 ， 


所 以 数组 最 常用 的 声明 形式 就 是 将 子 界 类 型 作为 “下 标 类 型 ”的 一 种 声明 


Pascal 的 读者 对 于 子 界 类 型 可 能 不 了 解 ， 在 Neo Pascal 上 


了 解 子 界 类 型 
类 型 。 使 用 子 界 类 型 作为 数组 的 下 标 类 型 的 优点 就 是 可 以 由 
\ 备 的 。 


特 位 


是 C 语言 不 


例如 : 
C 语言 声明 : 


6. 记录 类 型 


记录 类 型 (record) 是 描述 同一 对 象 的 一 组 类 型 可 能 不 同 的 数据 集合 。 使 用 记录 类 型 


aARRAY [0..10，0..20]OF INTEGER:; 
int a[11][21]; 


式 。 不 熟悉 


也 省 略 了 子 界 类 型 ， 这 里 读者 只 需 
+ 实际 上 就 是 某 一 有 序 类 型 的 一 个 子 集 。 一 般 使 用 “下 限 .. 上 限 ” 形 式 表 示 子 界 


] 户 指定 数组 的 上 、 下 限 ， 这 一 


! 实 


现 了 数据 逻辑 关系 和 存放 形式 上 的 一 致 。Pascal 的 记录 类 型 综合 了 C 语言 的 结构 、 联 合 的 基 


本 功能 ， 其 包含 两 类 字段 : 
障碍 ， 读 者 


yTTY 


iy 


声明 格式 : 


只 需 了 解 即 可 ， 不 必 深究 。 


不 变 字段 、 可 变 字段 。 记 录 类 型 的 声明 形式 比较 复杂 ， 可 能 会 对 


ED EOC 


油状 亚 寺 堪 习 


例如 : a:RECORD a, b:INTEGER:END: 
C 语言 声明 : struct { int a，b;} a; 
.指针 类 型 


(pointer〉 变量 中 存放 的 是 某 个 存储 单元 的 地 址 ， 即 指针 变量 指向 的 存储 单元 的 地 
址 。 一 个 指针 变量 仅 能 指向 某 一 种 特定 类 型 的 存储 单元 ， 该 数据 类 型 是 在 指针 声明 时 确定 
的 ， 称 为 指针 类 型 的 基 类 型 。 标 准 Pascal 并 不 提供 无 类 型 的 指针 ， 不 过 ， 一 些 商用 编译 器 对 
此 进行 了 扩展 。 


声明 格式 : 
ER Ee O 
例如 : aAINTEGER， 
C 语言 声明 : int *a; 
指针 的 运算 : 


^: 间接 访问 和 运算。 获取 指针 所 指向 存储 单元 里 的 数据 ， 与 C 语言 的 “*” 运 算 类 似 。 
@: 地 址 运算 。 获 取 变 量 的 地 址 ， 与 C 语言 的 “人 ”运算 类 似 。 


例如 : 
VAR P:^INTEGER:; 
I:INTEGER:; 
P:=@!I; 
P^:=65; 


1.2.5 ”Pascal 的 运算 符 
表达 式 是 描述 计算 规则 的 一 种 语言 结构 。 它 由 操作 数 、 运 算 符 及 圆 括号 组 成 。 操 作 数 包 
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编译 器 六 
‘ne 


括 变量 、 


常量 


符 以 及 其 RE 全 
言 的 运算 符 。 


及 计 之 路 


Se 类 人名 
函数 等 


。 运 算 符 可 以 分 为 算术 运算 符 、 避 有 


符 。Pascal 只 有 单 目 、 双 目 两 


符 、 集 合 运 


1 类 型 的 运 入 


表 1-5 Pascal 的 运算 符 


算 符 、 关 系 运 


符 。 表 1-5 详细 介绍 了 Pascal 语 


算 


分 类 运算 符 目 数 优先 级 运算 类 型 返回 类 型 功能 说 明 
1 整 、 实 型 整 、 实 型 取 负 
NOT 1 整 型 整 型 位 非 
号 双 多 整 、 实 型 整 、 实 型 乘法 运算 符 
/ 双 2 整 、 实 型 实 型 实数 除 
DIV 双 2 整 型 整 型 整数 除 
MOD 双 2 整 型 整 型 取 模 〈 取 余 ) 
AND 双 2 整 型 整 弄 位 与 
SHL 双 2 整 型 整 型 左 移 
SHR 双 2 整 型 整 型 右 移 
十 双 3 整 、 实 型 整 、 实 型 加 法 
- 双 3 整 、 实 型 整 、 实 型 减法 
OR 双 3 整 型 整 型 位 或 
XOR 双 3 整 型 整 型 位 异 或 
NOT 单 1 布尔 型 布尔 型 逻辑 非 
链 AND 双 2 布尔 型 布尔 型 逻辑 与 
辑 OR 双 3 布尔 型 布尔 型 逻辑 或 
XOR 双 3 布尔 型 布尔 型 逻辑 异 或 
= 双 4 基本 类 型 布尔 型 等 于 
~ 双 4 基本 : 布尔 型 不 等 于 
关 < 双 4 基本 布尔 型 小 于 
系 > 双 4 基 布尔 型 大 手 
< 一 双 4 基本 布尔 型 小 于 或 等 于 
>= 双 4 基本 : 布尔 型 大 于 或 等 于 
双 2 集合 类 型 集合 类 型 集合 交 
+ 双 3 集合 类 型 集合 类 型 集合 并 
- 双 3 集合 类 型 集合 类 型 集合 差 
集 = 双 4 集合 类 型 布尔 型 两 个 集合 是 否 相 等 
合 <> 双 4 集合 类 型 布尔 型 两 个 集合 是 否 不 相等 
>= 双 4 集合 类 型 布尔 型 左 集合 是 否 包含 了 右 集合 
< 一 双 4 集合 类 型 布尔 型 右 集合 是 否 包含 了 左 集合 
IN 双 4 布尔 型 左 操作 数 是 否 为 右 集合 的 元 素 
+ 双 目 3 字符 、 字 囊 字符 、 字 串 字符 串 连接 
， @ 1 任意 类 型 指针 型 取得 操作 数 变量 的 地 址 
^ 1 指针 型 任意 类 型 取得 指针 变量 指向 存储 单元 的 值 
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表 1-5 
先 级 简单 得 


后 


多 


优先 数 越 小 的 运 和 外 


o 


1.2.6 ”Pascal 的 语句 


程序 设计 i 


y 


五 言 主 
TIE 百 十 


多 数 命令 式 语 言 提 供 的 语句 


概 第 1 党 


述 


符 优 先 级 最 高 。 相 对 于 C 语言 的 15 级 优先 级 ，Pascal 的 优 


要 可 以 分 为 命令 式 语言 、 


池 、 逻 辑 式 语 言 和 面向 对 象 语言 。 大 


表 1-6 Pascal 的 语句 
语句 名 称 语法 格式 示 例 
赋值 语句 < 变量 名 > := < 表达 式 > ; a:=32; 
IF < 布尔 表达 式 > THEN < 语句 > ; IF a=3 THEN a:=4; 
IF < 布尔 表达 式 > THEN IF a=3 THEN 
IF 语句 < 语句 1> a:=4 
ELSE ELSE 
< 语句 2> ; a:=5; 
、 WHILE < 布尔 表达 式 > DO WHILE a<3 DO 
WHILE 语句 布尔 表达 式 a 
< 语句 > ; a:=atl ; 
REPEAT 
REPEAT 
< 语句 1> ; 
:=atl; 
REPEAT 语句 05 
b:=b+1; 
< 语句 n>; 
SE UNTIL a>b: 
UNTIL < 布尔 表达 式 > ; 
FOR < 循环 变量 名 > := < 初 值 > TO < 终 值 > DO FOR i:=1 TO 10 DO 
< 语句 > ; j:=j+1 ; 
FOR 语句 a Ui 
FOR < 循环 变量 名 > := < 初 值 > DOWNTO < 终 值 > DO FOR i:=10 TO 1 DO 
< 语句 > ; j=j+1 ; 
BREAK 语句 BREAK ; 
CONTINUE 语句 CONTINUE ; 
GOTO 语句 GOTO < 标号 > ; GOTOL1 ; 
复合 语句 BEGIN < 语句 序列 > END ; BEGIN a:=1:;b:=2; END:; 
CASE < 分 支 表达 式 > OF CASE a OF 
< 常量 1>:< 语 句 1> ; 1:i:=atl; 
CASE 语句 2:i:=at2; 
< 常量 n>:< 语 句 n>; 3:1:=at3; 
END; END; 
内 嵌 汇 编 语 句 ASM < 汇编 程序 段 字 符 串 >，< 参 数 信息 > END ; ASM'MOV AX，BX',"END; 
内 内 汇 编 不 是 标准 Pascal 的 语句 ， 而 是 笔者 参考 Delphi 为 Neo Pascal 增加 的 一 种 功能 


强大 的 语句 。 它 可 以 在 月 
至 此 ， 笔 者 已 经 对 Pascal 语言 的 语法 机 制作 了 简单 介绍 。 由 
十 的 相关 内 容 。 对 于 某 些 语 


户 程序 中 嵌入 汇 


乡 


由 


代码 ， 以 完成 与 硬 伯 


相 


Pascal 语言 为 主 ， 所 以 没有 必要 更 详尽 


法 


节 ， 笔 者 将 在 后 


续 


章节 中 解释 。 


也 讲述 Pascal 语言 程序 设 1 


关 的 功能 。 
于 本 书 的 目的 不 是 以 介绍 
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罗 ER i 
罗 。 ”编译 器 设计 之 路 
Cy 


| 1.3 ”开发 环境 与 Delphi 基础 


1.3.1 开发 环境 与 文件 列表 


Neo Pascal 是 用 Visual Studio C++ 2005 实现 的 ， 因 此 ， 本 节 将 以 介绍 Visual Studio 2005 
开发 环境 为 主 。 同 时 ， 考 虑 到 读者 的 应 用 习惯 ， 笔 者 也 提供 了 VC++ 6.0、VC++ 2003、 
VC++ 2008 等 不 同 版 本 的 源 代码 工程 ， 便 于 读者 调试 使 用 。 

编译 器 项 目的 调试 、 编 译 并 不 复杂 ， 与 普通 应 用 程序 的 开发 类 似 ， 如 图 1-3 所 示 。 


"Neo Pascal “Microsoft Vistal Studio 


文件 (E) ”编辑 (E) ”视图 (WD) YAssistx ”项 目 (B) ”生成 (6) 调试 D) 工具 (D 窗口 (WW) 社区 (QO 帮助 (由 


国 -图 - 芒 回 晤 % 昌 器 > 查 - hb Debug > Win32 * | 蔽 oppata -| 园丁 园 关 图 口 -- 
5 :加 芭 姑 翌 | 率 这 | 三 全 | 器 刀 忆 员 后 :从 区 境 几 和 家 人 次 是 吕 : 滴 疝 所 
解决 方案 资源 管理 器 - 解决 … v 4 X Main.cpp* | Global.h | CommonLib,h | Optimization,h | MemoryAlloc.h | IRSimplify,h 三 ErrorProcess,h | Const_Prop.h | Copy_Prop.h | DFA.h vx 
鸣 | 痢 | 国 中 Main.cpp > 自 (0 ex 编 译 器 设计 \VPASCAL\PA5CAL3WPASCAL\PASCALYMain.cpp le 
optrTbln 全 | 全 局 E 转 ) 羡 | 
加 Optimization.h | 
加 peep_Holeh 站 
加 Semantich 日 #include “stdafx.hr 
加 stateh 
加 stdafx.h extern CSymbolTb1 SymbolTbl:; 
加 Structure.h 
symboltbl.h extern vectorErrorInfo> ErrorProcess; 
syriaeh extern CState State: 
加 Typeh 
日 访 源 文件 extern CLex Lex':| 
© bits.cpp 
© CodeElimination.cpp extern CSyntax Syntax; 
加 CodeGen,.cpp 
从 commonLb.cpp extern CCodeGen CodeGen: 
© Const_Fold.cpp 
加 Const_Prop.cpp extern CPeep_Hole PeepHole; 
9 Copy Propcpp 日 int main(int argc, chars# argv) 
加 DFA.cpp - { 
©] ErrorProcess,cpp 
C2 Global.cpp © 【1State.CommandInit (argc, arev)) 
© IRSimplify, 
入 et PrintError () ; 
©3] MemoryAlloc.cpp } ot 
cq Memsharn.rnn 2 aa wo， sa | 
图 ul 2 | 区 站 国 
输出 vxX 


显示 以 下 输出 (5): 生成 


刘 
图 


就 绪 行 12 列 17 Ch 17 Ins 


图 1-3” ”Neo Pascal 开发 环境 


关于 Visual C++ 环境 的 使 用 ， 相 信 读 者 已 经 熟悉 ， 笔 者 就 不 再 重复 了 。 下 面 对 Neo 
Pascal 项 目的 文件 列表 进行 简单 说 明 ， 见 表 1-7。 


表 1-7 Neo Pascal 文件 列表 


文 件 名 相关 描述 
bits.cpp 位 向 量 类 ， 用 于 描述 优化 迭代 中 的 位 向 量 结构 
CodeElimination.cpp 代码 删除 ， 用 于 删除 不 可 到 达 代码 及 死 代码 
CodeGen.cpp 代码 生成 ， 用 于 生成 最 终 的 目标 代码 
CommonLib.cpp 公用 函数 库 ， 用 于 描述 一 些 公用 的 函数 实现 
Const_Fold.cpp 常量 折 羡 ， 属 于 代码 优化 阶段 的 算法 
Const_Prop.cpp 常量 传播 ， 属 于 代码 优化 阶段 的 算法 
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1.3.2 ”Delphi 基础 


概述 | 第 /党 
( 续 ) 

文 件 名 相关 描述 
Copy_Prop.cpp 复写 传播 ， 属 于 代码 优化 阶段 的 算法 

DFA.cpp 数据 流 分 析 ， 属 于 代码 优化 阶段 的 算法 
ErrorProcess.cpp 出 错 处 理 

Globalcpp 全 局 函数 接口 的 定义 

IRSimplify.cpp 代码 简化 ， 属 于 代码 优化 阶段 的 算法 

Lex.cpp 词法 分 析 器 
MemoryAlloc.cpp 存储 分 配 算法 

MemShare.cpp 存储 优化 ， 属 于 空间 优化 算法 
Optimization.cpp 优化 主 控 模 块 

Peep_Hole.cpp 蜂 孔 优化 

Main.cpp 主 程序 

Semantic.cpp 语义 分 析 及 IR 生成 模块 

State.cpp 命令 行 处 理 

Structure.cpp 公用 结构 、 类 的 实现 

SymbolTbl.cpp 符号 表 

Syntax.cpp 语法 分 析 器 

Type.cpp 类 型 系统 


1. Delphi 简介 


本 书 以 Pascal 语言 为 蓝本 讨论 编 


译 器 的 设计 与 实现 ， 因 此 ， 建 议 读者 安装 一 个 通用 


的 Pascal 编译 器 作为 参考 。 
7.0、Free Pascal、GNU Pascal (GPC)、Delphi7 等。 
其 他 编译 器 而 言 ，Delphi 
存在 一 定 不 足 ， 尤 其 
Delphi 7 又 是 Delphi 家 族 中 口碑 
尝试 的 。 鉴 于 有 些 读 者 可 能 对 Delphi 比较 陌 


境 作 简单 介绍 。 


并 


o 


Delphi 作为 一 种 可 视 化 的 编 


二 兄 征 


前 ， 可 供 选 择 的 Pascal 编 


毕竟 是 一 个 曾经 风 


译 器 并 不 少 ， 例 如 ，Turbo Pascal 


这 里 ， 笔 者 还 是 推荐 Delphi 7。 相 对 
靡 一 时 的 商用 编译 器 。 虽 然 Delphi 本 身 的 确 


Delphi 使 用 了 Microsoft Windows 


jm 
Rh 


a 


< 
| 
Naf 


拨 


Et 的 数据 库 技术 。 对 于 广大 的 程序 
高 编程 效率 。 
Delphi 1.0 诞生 于 1995 年 ， 作 为 Borland 公司 主推 的 Windows 开发 工具 ， 蓝 


是 IDE 环境 ,但 是 这 丝毫 不 影响 其 成 为 一 代 经 典 之 作 。 同 时 ， 
最 好 、 应 用 最 广 的 一 个 产品 。 因 此 ， 笔 者 认为 还 是 值得 

生 ， 下 面 ， 笔 者 将 对 Delphi 语言 及 其 开发 环 

程 环境 ， 提 供 了 方便 、 快 捷 的 Windows 应 用 程序 开发 工 

图 形 用 户 界面 的 许多 先进 特性 和 设计 思想 ， 采 用 了 可 

是 当今 最 快 的 编译 器 ， 拥 有 


的 完整 的 面向 对 象 的 程序 语言 (Object-Oriented Language)， 


是 以 Visual Basic 作为 竞争 对 手 的 。 历 经 4 年 发 展 ，Borland 终于 失 


发 人 员 而 言 ， 使 用 Delphi 开发 应 用 软件 ， 无 疑 会 大 大 


S 设计 初衷 就 
出 了 Delphi 历史 上 的 第 一 


编译 器 设计 之 路 
‘oe 
个 经 典 版 本 Delphi 5.0。 由 此 Delphi 也 一 度 成 为 最 流行 的 编程 语言 之 一 ， 几 乎 可 以 与 盛 极 
时 的 C/C++ 媲美 。 

2002 年 8 月 ，Delphi 7 正式 登 上 历史 舞台 ， 其 灵活 、 易 用 、 快 捷 等 特性 吸引 了 大 批 
国人 的 眼球 ， 成 为 当时 应 用 软件 开发 的 主要 工具 平台 。 在 国内 ， 其 市 场 份额 是 Visual 
Basic 无 法 比拟 的 。 可 惜 的 是 Delphi 7 却 成 了 后 继 版 本 无 法 超越 的 传奇 。 此 后 ，Borland 
公司 也 陆续 推出 了 Delphi 8、Delphi 2005、Delphi 2006、Delphi 2007 等 。 不 过 ， 随 着 核 
心 开 发 人 才 的 流失 ， 产 品 的 竞争 力 有 所 降低 ， 根 本 无 法 面 对 Java、C# 等 新 语言 的 挑 
战 。 由 于 开发 工具 领域 的 激烈 竞争 ，Borland 公司 也 无 心 恋战 ， 以 至 于 Delphi 失去 了 当 
年 的 辉煌 。 

2008 年 5 月 7 日 ，Borland 公司 正式 将 其 负责 开发 工具 研制 的 子 公司 CodeGear 出 售 给 
Embarcadero 公司 。 目 前 ，Embarcadero 公司 研发 的 CodeGear RAD Studio 2010 是 最 新 的 
Delphi 版 本 。 

2. 集成 开发 环境 

Delphi 7 的 IDE (如 图 1-4 所 示 ) 主要 包括 7 个 部 分 : 主 窗口 、 组 件 面板 、 工 具 栏 、 窗 


体 设计 器 、 代 码 编辑 器 、 对 象 观察 器 (Object Inspector) 和 代码 浏览 器 。 程 序 员 借助 于 IDE 
可 以 很 方便 地 完成 创建 、 调 试 、 修 改 应 用 程序 等 各 种 操作 。 


| Delphi 7 ProjectT 


Eie| Edt Search View Project Run Component Database Tools Window Help |<None> 全 可 


竹 国 -和 目 | 自 入 | 四 外 | 令 | Standard | Addiional | Win32 | Sustem | Data Access | Data Contok | i Snan| BDE | ADO | InterBase | WebServices| IntemetExoress | Intemet| WebSnan | Decision Cube| Diai |» 


硬 训 车 | 国 | 懈 - 呈 5 人 汉 | NR 加 村 针 A 打 目 四 KR @ 副 导 一 | | 语 


人 : 
Jrom | 性 : 
Properties | Events| 


Action | 
ActiveControl | 

(5 aNone 
AlphaBlend = DFalse 
AlphaBlendval 255 
[akLeftakTop] 
| 加 True 


时 
EF 


ls 出 
BiDiMode bdLeftToRight 度 
ns [biSystemMenu, 下 


1-4 Delphi7 的 IDE 


(1) 主 窗口 。 主 窗口 (如 图 1-5 所 示 ) 是 Delphi IDE 的 控制 核心 。 它 具有 其 他 Windows 
应 用 程序 的 主 窗口 所 具有 的 大 多 数 特 性 。 主 窗口 主要 包括 4 部 分 : 菜单 栏 、 工 具 栏 、 标 题 栏 
和 组 件 面 板 。 
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EXE 


工具 栏 菜单 栏 组 件 面板 标题 栏 


File 16t |Sewe Viee Fraject hm Copscnt Yet)ese Teols Ta Walp] |‘hiore "| 


shoc 中 :| Daa CE BDE | A00 | Imimgase| WesSercet| Inerell 


市 可 区 国 | 37 本 四 及 A 拘 蝇 加 6 因 司 =” 


1-5 Delphi7 的 主 窗口 


(2) 窗 体 设计 器 。Delphi 是 著名 的 RAD 工具 ， 可 以 方便 地 开发 所 见 即 所 得 的 Windows 
应 用 程序 。 而 Windows 的 窗口 界面 设计 主要 就 是 在 窗 体 设计 器 内 完成 的 。 在 创建 新 的 项 目 
时 ， 窗 体 设 计 器 是 一 个 空白 的 窗口 。 可 以 把 窗 体 设计 器 看 成 一 块 画布 ， 在 这 块 画布 上 可 以 
绘 出 各 种 各 样 的 Windows 应 用 程序 。 应 用 程序 的 用 户 界面 正 是 由 窗 体 实现 的 。 只 要 从 组 件 
面板 上 选择 一 个 组 件 并 把 它 放 到 窗 体 上 ， 就 能 够 实现 与 窗 体 设计 器 的 交互 。 可 以 用 鼠标 调整 
组 件 在 窗 体 设计 器 上 的 位 置 和 大 小 ， 还 可 以 用 对 象 观察 器 和 代码 编辑 器 来 控制 组 件 的 外 观 和 
行为 。 

(3) 对 象 观察 器 。 利 用 对 象 观察 器 (如 图 1-6 所 示 )， 可 以 
修改 窗 体 或 组 件 的 属性 ， 或 者 使 它们 能 够 响应 不 同 的 事件 。 属 。 SC 更 时 有 


|Form1 


性 (Property) 是 一 些 数据 ， 如 高 度 、 颜色 、 字体 等 ， 它们 决定 Properties | Events | 
了 组 件 在 屏幕 上 的 外 观 。 事 件 (Event〉 则 是 一 种 消息 处 理 机 Action 


制 ， 它 能 够 捕捉 某 种 情况 的 发 生 并 做 出 反应 ， 像 鼠标 单 击 和 窗 。 | 和 Bae 


口 打 开 就 是 两 种 典型 的 事件 。 对 象 观察 器 包括 Properties 选项 卡 AlphaBlendyall 255 


四 Anchors akLeftakTop] _ 


和 Events 选项 卡 ， 切 换 时 只 需 在 窗口 上 部 单 击 所 需 选项 卡 的 标 Auto5crol | 四 True 


AutoSize False 


签 即 可 。 至 于 对 象 观察 器 中 显示 哪个 组 件 的 属性 和 事件 ， 取 决 BDMode bd ehToRight 


Borderlcons [biSystemhienu, 


于 选 中 的 组 件 o BorderStyle bsSizeable 


(4) 代码 编辑 器 。 代 码 编辑 器 是 输入 代码 来 指定 应 用 程序 行 [em 


ClentHeight 466 


为 的 地 方 ， 也 是 Delphi 根据 应 用 程序 中 的 组 件 自动 生成 代码 的 地 SenWith 
方 。 代 码 编辑 器 每 一 页 对 应 着 一 个 源 代码 模块 或 文件 。 当 向 应 用 |Bconstants (TSizeConstan 


Y] True [| 


程序 中 加 入 一 个 窗 体 时 ，Delphi 会 自动 创建 一 个 新 的 单元 ， 并 添 
加 到 代码 编辑 器 顶部 的 标签 中 。 的 时 候 ， 快 捷 沫 单 提 
供 了 很 多 选项 ， 如 关闭 文件 、 设 置 书签 
(5) 代码 浏览 器 。 代 码 浏览 器 以 一 种 树 状 视图 的 方式 显示 了 列 在 代码 编辑 器 中 的 单元 广 
件 。 通 过 代码 浏览 器 ， 可 以 方便 地 在 单元 文件 中 漫游 或 在 单元 文件 中 加 入 新 的 元 素 或 者 把 已 
有 的 文件 改名 。 要 记 住 代码 浏览 器 和 代码 编辑 器 对 应 的 关系 。 在 代码 浏览 器 中 右 击 一 
个 结 点 即 可 以 看 到 该 结 点 的 可 用 选项 。 也 可 以 通过 修改 主 沫 单 Tools 一 Environment Options 
中 的 Explorer 选项 卡 来 控制 代码 浏览 器 的 行为 ， 如 排序 和 过 滤 等 。 
3. 项 目 开 发 与 调试 
关于 Delphi 语言 的 细节 ， 笔 者 无 法 在 此 尽 解 。 下 面 ， 笔 者 详细 讲述 一 个 简单 的 控制 台 
程序 的 开发 过 程 ， 以 便 读 者 对 Delphi 项 目 开 发 及 IDE 的 使 用 有 初步 了 解 。 这 里 ， 之 所 以 选 
择 控 制 台 程 序 是 因为 其 更 接近 标准 Pascal。 
(1) 新 建 工 程 。 单 击 “File” 菜 单一 “New” 一 “Other..” 即 出 现 “New Items” 窗 口 ， 


图 1-6 对 象 观 察 器 
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B R i 
罗 。 编译 器 设计 之 路 
Cs 


如 图 1-7 所 示 。 选 择 “Console Application” 后 ， 即 显示 代码 编辑 窗口 。 


7 New ltems 


Data Modules | Intraweb | Wieb5ervices | Business | Web5nap | Web Documents | 


New | Activex | Multitier | Projectl | Forms | Dialogs | Prolects 


CE] 国 
点 pplication Batch File CLx CLx Data CLx Form 
点 pplication Module 


Control Panel Control Panel 
点 pplication Module 


喇 参 


CLx Frame 


中 妾 


Data Module “DLL Wizard 


Component 


Form Frame Package 


全 Inhert 全 Use 


cm | top | 


区 


1-7 New Items 窗口 


控制 台 程序 是 最 有 利于 剖析 编译 器 内 核 的 ， 这 绝 不 是 信口开河 。 读 者 所 见 到 的 窗 体 、 界 


面 都 是 Windows 提供 的 API 接口 而 已 ， 编 译 器 需要 做 的 只 是 像 调 用 普 
接口 即 可 。 至 于 RAD 的 效果 完全 是 IDE 的 任务 ， 并 不 是 编译 器 所 关心 
面 最 终 都 将 以 源 程序 的 形式 输入 编译 器 ， 编 译 器 则 根据 约定 传 参 调 月 
面 。 因 此 ， 学 习 编 译 器 的 最 好 办 法 就 是 避 开 那些 外 

(2) 编写 程序 。 在 代码 编辑 窗口 中 ， 读 者 参照 如 图 1-8 所 示 的 程序 
代码 。 


EProjecti dpr 


rr FP 
外. 国 Yariables/Constants 
[Ss Uses 


program Projectil; 
{$APPTYPE CONSOLE} 
uses 
SysUtils; 
var 
i,j:integer; 
hegin 
readlnt{i); 
readlnij}; 
EE 
writelnii); 
end. 


[Ji 


1: 19 Modified I nsert 


1-8 ”代码 编辑 窗 


22 


a 


通 函 数 一 样 调用 系统 
的 。 事 实 上 ， 一 切 界 


日 系统 API 生成 相应 的 界 
围 的 附件 ， 直 击 其 内 核 。 


段 ， 录 入 相应 的 程序 


CONSOLE} ”是 Delphi 特有 的 编译 指令 ， 表 示 该 项 目 是 控 和 
“SysUtils” 是 Delphi 的 系统 库 ， 读 者 不 必 过 多 关注 。 


栈 、 


| 


这 个 程序 的 功 


二 ELE3 | 


能 是 从 终端 读 入 两 个 整数 后 ， 计 算 这 两 个 整数 的 和 并 输出 。 这 里 ， 值 得 注 
意 的 是 ，Delphi 与 标准 Pascal 还 是 有 一 定 差异 的 。 例 如 ， 第 


人 


2 行 的 “ {$APPTYPE 


央 台 程序 。 再 如 ， 第 4 行 的 


(3 ) 运行 与 调试 。 代 码 输入 完毕 ， 只 需 按 “F9” 键 即 可 运行 程序 ， 亦 可 通过 单 击 
“Run” 菜 单一 “Run” 运 行 。Delphi 提供 的 调试 工具 是 比较 强大 的 ， 


包括 断 点 、 监 视 、 调 用 


线程 等 ， 读 者 可 以 通过 “View” 菜 单一 “Debug Windows” 选 择 使 用 。 下 面 ， 笔 者 介绍 
一 下 与 编译 器 设计 相关 的 调试 功能 一 一 汇编 调试 。 


在 程序 运行 过 程 中 ， 使 月 


Project1.dpr.8: readin(i); 
E0040838E Al70934000 


00408393 ESB68AT7FFFF 
00408398 8BD8 

D0040839& A170934000 
0040839F EBB4A7FFFF 
D04083A4 EBB83AZ2FFFF 


Inov 
call BReadLong 

InOV ehx,eax 

mov eax, [$00409370] 
call BReadLn 

call B_IOTest 


Project1.dpr.9: readin(3); 


004083A9 A1l70934000 
D04083AE EBA4DATFFFF 
004083B3 8BFO 

D004083B5 A170934000 
004083BA E899A7FFFF 
D04083BF ES68AZ2FFFF 


mov eax, [$00409370] 
call BReadLong 

InOV eSi,eax 

mov eax, [$00409370] 
call BReadLn 

call B_IOTest 


Projectl1.dpr.10: 工 :=i+] 


004083C4 03DE 


add ebx,esi 


Project1.dpr.11: writelIn(i); 


004083C6 A104934000 
004083CB 8BD3 

004083CD EBSEAAFFFF 
D004083D2 ES8B9AAFFFF 
DO04083D? E850AZ2FFFF 


mov eax, [$00409304] 
mov edx,ebx 

call BUriteOLong 
call BWriteLn 

call B_IOTest 


Projectl1.dpr.12: end. 


004083DC 5E 
004083DD 5B 
DO4083DE EBCDB7FFFF 
004083E3 90 


pop esi 
pop ebx 
call BHalto 


日 功能 键 “Ctrl+AlttrC” 即 可 打开 CPU 窗口 ， 如 图 1-9 所 示 。 


EAX 00000000| 四 
EBX ?FFD3000| 引 
ECX 0013FF94 
EDX 0013FFB4 
ESI 00000001 
EDI 00000005 
EBP 0013FFCO 
ESP 0013FFaB 
EIP 0040838E 
EFL 00000246 
Cs O01B 

D3 0023 

SS 0023 

ES 0023 [Mw 


定 0013FFAB [00000001| | 
OO13FFA4 O040838E .E 
O013FFAO 7FFD3000 ., 
OO13FF9C O0404BOF .E 
OO13FF98 O00403A4B .E 
O013FF94 O013FFCO ., 
O013FF90 00408334 .[ 
O013FF8C O0000001 ., 
O013FF88 00000005 ., 
0013FF84 O0013FF94 .| 
O013FF80 O004039F2 .E 
OO13FF?C OO13FFB4 ., 
OO13FF7?8 004039E4 .[ 
00137F74 O013FF94 .| 
OO13FF?0 O04082FB .[ 


looa10000 BH oo oo oo 00 00 00 00 
D0410008 00 oo 01 00 48 1B 5D BC ....H.]. 
00410010 00 00 00 oo oc 00 ol 00 


它 非常 直观 地 显示 了 编译 得 到 的 汇编 代码 ， 并 且 人 允许 用 户 监 视 通 用 


1-9 Delphi 的 CPU 窗口 


在 应 用 Delphi 开发 实际 系统 时 ，CPU 窗口 主要 的 功能 是 帮助 用 


OO13FF6C O04082F4 .E 
O013FF68 OO13FF?C ., 
OO13FF64 O04082E6 .E 
NN1a3FFAN | 


[glu 


户 进行 汇编 级 的 调试 ， 
寄存 器 、 内 存 、 标 志 寄 


存 器 等 资源 的 状况 。 这 与 Visual Studio IDE 的 反 汇编 调试 是 非常 类 似 的 ， 相 信 有 经 验 的 读 


者 应 该 比较 熟悉 。 这 


里 ， 笔 者 介绍 Delphi 汇编 级 调试 的 目的 就 是 希望 读者 能 够 结合 实例 程 


序 学 习 Delphi 的 编译 机 制 ， 这 对 于 深入 理解 本 书 的 内 容 将 是 非常 有 利 的 。 不 过 ， 可 惜 的 是 
Delphi 并 不 提供 输出 汇编 程序 代码 的 功能 ， 因 此 ， 只 能 借助 CPU 窗口 来 查看 编译 得 到 的 汇 


编程 


其 中 的 “Delphi Language Guide”， 它 对 学 习 Pascal 语言 是 有 


序 代 码 。 
(4) 联机 帮助 


IT 


。 单 击 “Help” 菜 单一 “Delphi Help” 即 可 打开 联机 帮助 。 与 许多 联机 帮 
助 一 样 ，Delphi 的 联机 帮助 也 是 一 部 非常 经 典 的 教科 书 。 不 熟悉 Pascal 语言 的 读者 可 以 阅读 


定 帮助 的 。 当 然 ， 更 重要 的 是 


它 还 提供 了 一 份 完整 的 Delphi 文法 ， 读 者 可 以 参见 “Delphi Language Guide” 一 “Object 
Pascal grammar” 部 分 ， 如 图 1-10 所 示 。 这 是 Neo Pascal 文法 的 一 个 量 


者 参考 品味 。 


要 来 源 ， 因 此 ， 建 议 读 
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二 i 
辐 。 编译 器 设计 之 路 
Ci 


Dope 
文 梓 (FE) 广饶 (E) 书 蔡 (M) 这 项 (0) 和 区 (HM) 
帮 埠 主题 了 )| 后 &Em) | 打印 史 | 


elpthy Learnasae Peterenss 
Object Pascal grammar 
| 


Prograndlock ',* 


TIntertacesection 
Lapleaentationsection 
Initsection *.* 

Pachkaye -> PACRADE Tdent ';' 

(RequiresClouse) 
【Concainaclauae] 


ED ‘,* 
Library -> LIBRARY Tdent *;' 
PrograaBlock '," 
Prowranglock -> (VsesCleuse] 
Biock 
VsesClause -> USES Identhist 2 
PortabilityDirective -> platforn 
-> deprecated 
> library 
Jmter [aceSection -> INTERTACE 
[Vsesciause) 
[IntertaceDecl)... 
InterfaceDecl -> Constsection 
> Typesection 
-> Yarsection 


[gsesCiause] 
(beclSection)... 
[Exportsstat]... 
Wock -> [Declsection) 
[Exportascat), .. 
Coapoumdscar 


【gxpoxeaseac],. 


DeclSection -> Labelbecisection 
-> ConstSection 


1.4 深入 学 习 


为 了 帮助 读者 更 好 地 
或 资源 ， 供 读者 参考 。 


Goal -> (Progran | jacksge | Library | gplc) 
Progron -> (PROGRAN Idens ['(* Idenclist ')*)] ';°) 


Bl 


WUadt -> INIT Idenr [TorcabilicyDireceive] "2 


portestnt -> EXPORTS ExportsItea 【，Exporcaices], 
Eportslten -> Idenc (NANEIINDEX "*” Consticpr "*") 
[LINDEXINANE “~*~ Constixpr "~] 


上 


图 1-10 Object Pascal 文法 


学 习 与 理解 ， 在 每 一 章 结尾 处 ， 笔 者 将 结合 讲述 内 容 推荐 一 些 书籍 


1、History ofProgramming Languages Richard Wexelblat Academic Press 
说 明 : 本 书 是 以 介绍 程序 设计 语言 历史 为 主 的 材料 。 

2、The History of Programming Languages, Volume 2 Thomas Bergin, Richard Gibson ACM Press 

说 明 ， 本 书 是 以 介绍 程序 设计 语言 历史 为 主 的 材料 。 

3、Compilers and Compiler Generators P. D. Terry Rhodes University 
说 明 : 本 书 是 很 不 错 的 编译 技术 的 入 门 教材 ， 相 对 于 “ 紫 龙 书 ”简单 一 些 。 

4、Structure and Interpretation of Computer Programs Harold Abelson The MIT Press 
说 明 :， 本 书 是 麻 省 理工 学 院 的 经 典 教 材 ， 以 介绍 程序 设计 语言 原理 与 翻译 技术 为 主 ， 初 学 者 阅读 有 一 定 难 度 。 


5、 Pascal User Manual and Report 


Kathleen Jensen, Niklaus Wirth 


说 明 : Wirth 写 的 一 本 Pascal 用 户 手册 ， 是 Pascal 的 权威 著作 。 


6、Pascal ISO 7158:1990 
说 明 : ISO 撰写 的 Pascal 标准 。 
7、 编 译 原 理 〈 紫 龙 书 ) 


说 明 : 在 编译 技术 中 ，“ 龙 书 ” 堪 称 最 经 典 的 著作 。“ 龙 书 ”原著 共有 三 个 版 本 ， 即 1977 


并 没有 中 文 版 ) 、1986 年 第 二 版 


Alfred V. Aho, Monica S. Lam, 1 
Ravi Sethi, Jeffrey D. Ullman 机 械 工业 出 版 社 
第 一 版 〈 习 称 “ 绿 龙 书 ”， 目 前 


年 和 外 
版 )，2007 年 第 三 版 ( 习 称 “ 紫 龙 


( 习 称 “ 红 龙 书 ” 中 文 版 于 2003 年 由 机 械 工 业 出 版 社 


书 ”， 中 文 版 于 2009 年 由 机 版 工业 出 版 社 出 版 )。 在 “ 红 龙 书 ”的 基础 上 ，“ 紫 龙 书 ”增加 了 关于 过 程 间 分 析 、 指 令 级 并 行 等 


研究 热点 的 讨论 。 同 时 ， 还 引入 了 


8、Compiler Construction 


些 关 于 经 典 编译 技术 的 最 新 观点 。 
Niklaus Wirth Addison-Wesley 


说 明 ， 本 书 是 Wirth 于 1996 年 撰写 的 以 介绍 编译 器 构造 为 主 的 材料 。 但 本 书 内 容 比 较 精炼 ， 不 太 适 合作 为 入 门 级 读物 。 
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1.5 ”实践 与 思考 


合 本 章 所 述 的 观点 ， 试 分 析 读者 所 熟悉 的 程序 设计 语言 的 特点 。 
合 本 章 所 述 的 观点 ， 试 比较 C# 与 Java 语言 的 特点 ， 重 点 关注 翻译 机 制 的 差异 。 
列举 3 个 Pascal 与 C 语言 的 差异 ， 并 试 述 Pascal 语言 的 主要 特性 。 


| 1.6 ”大师 风 采 一 一 Niklaus Wirth 


Niklaus Wirth: 瑞士 计算 机 科学 家 ，Pascal、Modula 语言 创始 人 ， 结 构 化 程序 设计 思想 
的 提出 者 。1934 年 2 月 15 日 出 生 于 瑞士 温 特 图 尔 。1958 年 取得 瑞士 苏黎世 工学 院 学 士 学 
位 ，1960 年 取得 加 拿 大 莱 维 大 学 硕士 学 位 ，1963 年 获得 美国 加 州 大 学 伯克利 分 校 博士 学 
位 。 毕 业 后 进入 斯 坦 福 大 学 计算 机 科学 系 工作 ， 在 此 期 间 ， 他 实现 了 平生 第 一 个 语言 
Euler。1967 年 ，Wirth 拒绝 了 斯 坦 福 大 学 的 挽留 ， 首 先 回 到 瑞士 苏黎世 大 学 任职 ， 而 后 又 于 
1968 年 回 到 了 他 的 母校 苏黎世 工学 院 工作 。 

“算法 + 数据 结构 = 程序 ”这 个 著名 的 公式 正 是 由 Wirth 提出 的 ， 他 也 因此 获得 了 1984 
年 图 灵 奖 。Wirth 被 誉 为 “Pascal 之 父 ”。 在 程序 设计 语言 与 编译 器 设计 领域 ，Wirth 的 主要 
贡献 在 于 : 

@ 设计 与 实现 了 Pascal。 

@ 设计 与 实现 了 Modula 与 Modula-2. 

@ 提出 了 结构 化 程序 设计 思想 。 

@ 对 著名 的 BNF 进行 了 扩充 ， 提 出 了 EBNF (Extended BNF )。 

20 世纪 80 年 代 后 期 ，Wirth 又 致力 于 “Oberon 计划 ”的 研究 ， 设 计 并 实现 了 一 个 超越 
Pascal 与 Modula 的 Oberon 语言 。 与 Pascal、Modula 相 比 ，Oberon 语言 更 安全 ， 它 引入 了 
数组 越界 检查 、 垃 圾 回收 、 强 类 型 检查 竺 机制。 当然 ， 最 令 人 期 待 的 是 Oberon 不 但 支持 应 
用 软件 设计 ， 还 支持 操作 系统 的 设计 。2007 年 ，Wirth 实现 了 Oberon-07， 其 目标 机 是 32 位 
ARM 处 理 器 。 
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第 2 章 词法 分 析 


A language that doesn't have everything is actually easier to program in than some that do. 


——Dennis M. Ritchie 
| 2.1 词法 分 析 概 述 


2.1.1 词法 分 析 的 任务 


就 编译 器 基本 结构 而 言 ， 词 法 分 析 (exical analysis) 是 编译 过 程 的 第 一 阶段 。 实 际 上 ， 
在 词法 分 析 之 前 ， 有 些 编译 器 模型 存在 编译 预 处 理 阶段 ，C 语言 就 是 一 个 典型 的 例子 。 不 
过 ， 大 多 数 Pascal 编译 器 都 不 存在 预 处 理 器 。 本 书 对 编译 预 处 理 不 作 讨论 。 词 法 分 析 的 任务 
是 从 左 到 右 扫描 与 分 析 构 成 源 程序 的 字符 流 〈 字 符 串 )， 把 字符 流 分 解 为 多 个 单词 (token)。 
每 个 单词 都 是 具有 独立 含义 且 不 可 再 分 割 的 字符 序列 。 在 编译 器 框架 中 ， 完 成 词法 分 析 任务 
的 模块 称 为 词法 分 析 器 。 

读者 可 能 对 “单词 ”感到 有 点 疑惑 ， 不 明白 到 底 什么 才 是 词法 分 析 中 所 说 的 “单词 ” 
试图 回答 这 个 问题 就 必须 了 解 儿 个 基本 概念 。 这 里 ， 引 入 几 个 程序 设计 语言 相关 的 名 词 。 

(1) 标识 符 : 用 户 自 定 义 的 变量 名 、 函 数 名 等 字符 串 。 

(2) 关键 字 : 具有 特殊 含义 的 标识 符 。 

(3) 运算 符 : 例如 十 、 一 、*、/ 等 。 

(4) 常量 : 例如 3.24、92 等 。 

(5) 界 符 : 具有 特殊 含义 的 符号 ， 如 分 号 、 括 号 等 。 

通常 ， 程 序 设计 语言 的 关键 字 也 就 是 它 的 保留 字 ， 编 译 器 不 允许 此 类 单词 另 作 他 用 。 不 
过 ， 这 并 不 是 绝对 的 。 有 些 语 言 关 键 字 并 不 一 定 是 保留 字 ， 例 如 ，Fortran 语言 允许 用 户 定 义 
与 关键 字 相 同 的 标识 符 。 因 此 ， 读 者 应 该 注意 关键 字 与 保留 字 是 有 区 别 的 。 

上 述 五 类 元 素 是 最 基本 的 原子 ， 任 何 表 达 式 、 语 句 、 函 数 、 程 序 都 是 由 这 几 类 元 素 排列 
组 合 而 成 的 。 词 法 分 析 所 讨论 的 “单词 ”就 是 这 五 类 元 素 的 总 和 。 

例 2-1 C 语言 程序 段 的 词法 分 析 结 果 见 表 2-1。 


bp 


表 2-1 词法 分 析 的 单词 流 


源 程序 字符 流 词法 分 析 的 逻辑 结果 
int ij; mt 1 ， j 。 for ( i 
for (i=1;i<10;i++) 去 1 ; 1 < 10 i 
jj+tl; + ) j = j 昌 1 


注意 ， 表 2-1 的 单词 流 并 不 是 词法 分 析 器 真正 的 实际 输出 结果 ， 只 是 一 种 逻辑 表示 而 
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已 。 更 详细 的 形式 将 在 后 续 章 节 中 讨论 。 根 据 单词 的 分 类 标准 ， 可 以 将 单词 作 如 下 归 类 ， 见 
表 2-2。 
表 2-2 例 2-1 单词 流 的 分 类 
关 键 字 int for 
标识 符 i j 
运算 符 = ++ S 
常量 10 1 
界 符 ( ) 
这 里 ， 读 者 可 能 会 有 两 个 疑问 : 


(1) 为 什么 “++” 运 
(2) 为 人 
下 面 ， 笔 者 来 解释 一 下 这 两 个 问题 。 在 实际 乡 
一 个 原则 ， 就 
入 了 一 个 字 
一 个 字符 
运算 符 。 然 而 ， 
为 一 个 运算 符 记录 下 来 后 ， 继 续 识 别 下 一 个 和 


读 入 下 


日 


符 不 会 分 解 为 两 个 “+” 运 
上 F 么 将 “int 1” 分 解 为 “int” 和 Es 而 不 是 “int 1” 呢 ? 
译 器 设计 中 ， 任 何 词法 分 析 器 都 必须 满足 


符 呢 ? 


A 64 十? 


人 


三 ， 


于 C 语言 


是 在 符合 词法 定义 的 情况 下 进行 超 育 
存在 i ps 运算 符 


。 如 果 下 一 个 字符 是 


多 或 6 


_» 时 
> 


如 果 下 一 个 字符 不 是 “+” 或 “=” 时 ， 词 法 分 析 器 就 将 前 一 
k 词 。 


八尾 


1 搜索 识别 。 例 如 ， 当 C 语言 词法 分 析 器 读 
| ， 那么 ? 词法 分 析 器 会 继续 


词法 分 析 器 就 将 这 两 个 字符 作为 一 个 


人 字符 “+” 作 


根据 这 个 原则 ， 就 可 以 解释 为 什么 “int” 没 有 被 识别 为 “i”“n”“t” 了 。 根据 C 语 


言 标识 符 ( 关 键 字 只 


赴 


刀 


守 单 词 的 极 大 搜索 原则 。 也 训 
字符 ， 直 到 读 入 这 个 字符 后 


的 任意 组 合 。 基 
“in” 是 合法 的 标识 符 ， 则 继续 读 入 “t”。 直到 读 到 “ 
定义 ， 则 将 “int” 记 录 下 来 即 可 。 


8 么 ， 为 什么 需要 超前 搜索 识别 


尼 ? 这 个 问题 非 


有 特殊 含义 的 标识 符 ) 定义 的 规则 ， 标 识 符 必须 以 字母 或 下 画 线 
此 ， 当 读 入 “i” 后 ， 继 续 读 入 “ny， 


由 于 


”时 ， 发 现 “int ”不 满足 标识 符 


A 


吊 


的 


简单 ， 超 前 搜索 保证 了 词法 识别 能 遵 


那么 ， 通 过 超前 搜索 一 个 


个 单 词 的 识 另 


将 分 解 成 
样 ， 


永远 也 不 可 
超前 搜索 识别 的 


2 


TN 人 人 人 三 个 单词 。 因 


上 1 了。 如 果 没 有 极 大 搜索 原则 ， 当 读 入 类 似 “int” 的 
为 ， 它 们 都 是 满足 C 语言 标识 符 的 定义 规范 的 。 这 


已 码 夺 申 时 


子 付 中 内， 


能 识别 出 长 度 大 于 1 的 标识 符 了 。 显 然 ， 这 样 的 结果 是 不 能 接受 的 ， 因 
存在 是 必然 的 。 


不 过 ， 词 法 分 析 器 的 设计 难度 很 大 程度 


是 说 ， 在 满足 词法 定义 的 情况 下 ， 尽 可 能 使 单词 的 长 度 最 长 。 
， 单 词 不 能 满足 词法 定义 ， 也 就 完成 了 


词法 分 析 器 就 


此 ， 


上 依赖 于 程序 设计 语言 本 身 的 规范 。 例 如 ，C 语 


言 中 “ name” 是 完全 合法 的 标识 符 ， 而 在 早期 的 Pascal 语言 中 ,，“ name” 却 是 非法 的 标识 


符 ， 因 


如 ，Fortran 语言 规定 除 字符 串 中 
中 “int 1” 与 “inti” 是 完全 相同 的 ， 


的 空格 以 外 ， 


虽然 这 


只 是 一 个 很 小 的 规定 ， 但 是 ， 


为 Pascal 语言 的 标识 符 定义 原则 是 以 字母 开始 ， 后 跟 字母 、 数 字 的 任意 组 合 。 再 


编译 器 将 忽略 


他 空格 ， 这 意味 着 在 Fortran 


读者 可 以 尝试 使 用 


超前 搜索 识别 单词 。 不 难 发 现 ， 这 个 规定 给 词法 分 析 的 设计 带 来 很 大 的 困难 。 
当然 ， 程 序 设计 语言 毕竟 就 是 人 工 语言 ， 是 人 为 定义 而 成 的 。 在 设计 程序 设计 语言 时 ， 完 
编译 器 实现 的 语言 规则 。C、Pascal 等 语言 的 设计 就 吸取 了 先辈 的 教训 ， 


全 可 以 避免 某 些 不 利 了 
避免 了 一 些 人 为 造成 的 不 必要 的 麻烦 。 因 


此 ， 在 设计 一 门 程序 设计 语言 时 ， 应 该 尽 可 能 避免 关 
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Se 


键 字 非 保留 字 、 


空格 忽略 等 类 似 情 况 的 发 生 ， 否 则 将 给 词法 、 语 法 分 析 造 成 相当 的 障碍 。 


2.1.2 单词 的 分 类 


前 面 ， 笔 者 已 经 介 
旦 序 设计 语言 设计 的 角度 而 


=p 
了 


i 


已 ， 


这 种 分 类 方式 是 一 种 非常 合理 


的 角度 而 言 ， 这 种 分 类 却 是 值得 商 忆 


应 


长 


该 归 入 关键 字 还 是 运算 符 ? 了 


如， 


以 是 逗号 运算 符 ， 也 可 以 是 表达 式 列表 的 分 隔 界 符 。 


根据 词法 定义 规 贝 
实际 上 ， 乡 


准确 归 类 。 


1， 编译 器 或 


i 译 器 并 不 需要 关心 “DIV”、“sizeo 
笔者 提倡 将 关键 字 、 运 算 符 、 界 符合 并 为 一 类 ， 


了 单词 的 五 种 类 型 ， 即 标识 符 、 关 键 字 、 运 算 符 、 常 量 、 界 符 。 从 


的 观点 。 不 过 ， 从 编译 器 设计 


的 。 例 如 ，Pascal 语言 的 “DIV” C 语言 的 “sizeof” 


C 语言 的 “,” 应 该 归 入 运算 符 还 是 界 符 呢 ? “,” 既 可 


F 可 以 将 “DIV 和 “sizeof” 归 类 ， 但 绝对 不 可 能 将 “，” 
”等 到 底 是 关键 字 还 是 运算 符 。 故 


称 为 系统 单词 类 。 


也 就 是 说 ， 从 编译 器 的 观 


点 来 看 ， 只 需 将 单词 分 为 标识 符 、 和 常量 、 系 统 单词 三 类 即 可 。 


区 词法 分 析 器 的 设计 


2.2.1 


天 ， 将 源 程序 文 们 
编译 器 将 源 程序 文件 完全 读 入 内 存 了 。 许 多 允 
内 存 中 完成 编译 工作 ， 同 时 ， 还 要 尽 可 能 将 有 限 


识别 单词 


通常 ， 设 计 一 个 完整 的 词 光 
义 识别 单词 、 输 出 单词 流 。 本 节 将 围绕 这 


分 析 器 需要 考虑 三 个 


首先 讨论 如 何 输 入 源 程序 字符 流 。 读 者 或 许 认 为 源 程 
入 内 存 的 过 程 ， 


有 上头 


区 六 
了 | 


口 


分 : 


并 非 难事 。 不 过 ， 在 早期 硬件 条 件 相 对 较 差 时 ， 就 不 允许 
译 器 设计 者 必须 考虑 如 何 让 编译 器 在 极为 有 限 的 
的 内 存留 给 符号 表 使 用 。 因 


输入 源 程序 字符 流 、 按 照 词法 定 


三 个 部 分 讨论 词法 分 析 器 的 设计 与 实现 。 

字 字 符 流 输 入 无 非 就 是 将 源 程序 读 
这 应 该 是 非常 简单 的 ， 这 个 想法 不 无 道理 。 在 2GB 
完全 读 入 内 存 确 及 


内 存 成 为 标准 配置 的 今 


此 ， 初 始 化 时 不 可 


能 将 源 程 序 文件 完全 读 入 内 存 。 那 么 ， 是 不 是 每 次 都 是 直接 从 外 存 读 取 数 据 昵 ? 众所周知 ， 


内 、 外 存 数据 交换 是 有 代价 的 ， 尤 其 是 外 存 访 问 速率 较 低 


时 


， 频 繁 的 内 、 外 存 数据 交换 可 能 耗 


时 较 长 。 由 此 ， 设 计 者 必须 在 时 间 与 空间 之 间作 出 抉择 。 通 常 的 解决 方法 就 是 设置 一 个 内 存 组 


区 ， 


各 防 半 


实际 上 ， 


算法 的 区 别 : 


分 析 器 到 底 是 使 用 嚼 


(1) 起 始 位 置 是 已 入 


I 的。 在 词 兴 


每 次 以 数据 块 为 单位 读 取 源 程序 文本 存 入 内 存 缓冲 
器 设计 者 就 必须 考虑 数据 块 的 大 小 以 及 缓冲 区 的 访问 策 
内 存 容 量 还 是 操作 系统 支持 ， 笔 者 认为 详细 讨论 此 类 话题 
前 面 ， 笔 者 简单 引入 了 缓冲 区 的 概念 。 下 面 ， 将 切入 1 
识别 单词 就 是 一 种 特殊 的 子 虽 
现 ， 读 者 应 该 } 


区 


中 ， 以 备 识别 程序 处 理 。 这 样 ， 编 
等 问题 。 不 过 ， 在 今天 看 来 ， 无 论 


的 实际 意义 已 经 不 大 了 。 


分 析 器 搜索 一 个 单词 之 前 ， 子 串 在 父 串 中 的 起 始 位 置 是 


FE 题 ， 重 点 讨论 单词 的 识别 。 


搜索 过 程 。 关 于 字符 串 子 串 搜索 算法 原理 与 实 
不 陌生 。 或 诈 有 些 读者 还 会 联想 到 经 典 的 KMP 模式 匹配 算法 。 那 么 ， 词 法 
种 算法 的 呢 ? 要 回答 这 个 问题 ， 就 必须 理 


解 词法 分 析 器 与 传统 子 串 搜索 


已 知 的 。 单 词 的 起 始 位 置 就 是 上 一 个 单词 结束 时 搜索 指针 的 位 置 加 上 其 后 的 无 关 字符 个 数 。 


无 关 字符 应 视 


\ 体 的 实现 语言 而 定 。 例 如 ，C 


1 五 圭 口 


1 百 


FP 的 不 是 出 现在 字符 、 字 符 串 常量 中 的 空 


格 、 回 车 、Tab 等 都 视 为 无 关 字符 。 然 而 ，Python 的 语句 行 前 部 的 空格 、Tab 对 于 程序 语义 
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是 有 影响 的 ， 因 此 ， 就 不 能 视 为 无 关 字符 。 对 于 有 编译 预 处 理 器 的 编译 器 而 言 ， 剔 除 无 关 字 
符 可 以 由 编译 预 处 理 器 完成 。 不 过 ， 编 译 预 处 理 器 并 不 能 将 源 程序 文件 中 的 所 有 无 关 字 符 一 
概 剔除 ， 必 须 保 证 单词 与 单词 之 间 存 在 必要 的 分 割 字符 。 例 如 ,“int a;” 中 的 无 关 字 符 是 不 
能 在 编译 预 处 理 时 剔除 的 ， 因 为 其 中 的 空格 对 于 词法 分 析 是 有 实际 意义 的 。 

如 图 2-1 所 示 ， 根 据 超 前 搜索 识别 的 原则 ， 当 搜索 指针 移动 到 “e” 后 面 一 个 字符 时 ， 
发 现 单词 “while” 识 别 完 成 并 将 其 提交 。 对 于 C 语言 而 言 ， 本 例 中 的 两 个 空格 是 无 关 字 
符 ， 故 搜索 指针 直接 跳 过 这 两 个 空格 即 可 。 当 搜索 指针 移动 到 “(” 时 ， 由 于 “(” 不 是 无 关 
字符 ， 那 么 ， 下 一 个 待 识别 单词 的 起 始 位 置 就 是 “(” 的 位 序 。 搜 索 指 针 从 起 始 位 置 开始 识 
别 单词 。 假 设 将 “(” 字 符 蔡 换 为 “@”， 显然“@” 不 是 任何 有 效 的 C 语言 单词 的 起 始 字 
符 。 同 时 ， 也 不 是 C 语言 规定 的 无 关 字符 ， 因 此 ， 并 不 能 路 过“@” 继 续 识 别 ， 只 能 中 断 分 
析 并 提示 出 错 。 


Id 


上 一 个 单词 起 始 位 置 搜索 指针 起 始 位 置 


图 2-1 词法 分 析 器 起 始 位 置 


(2) 子 串 是 未 知 的 。 在 开始 识别 一 个 单词 之 前 ， 编 译 器 是 无 法 预知 下 一 个 单词 的 种 类 及 
形式 的 。 因 此 ， 词 法 分 析 器 不 可 能 像 传统 子 串 搜索 算法 那样 给 定子 串 ， 更 不 可 能 像 KMP 
法 那样 预先 分 析 处 理子 串 。 

现在 可 以 设计 一 个 识别 标识 符 的 小 程序 。 不 同 的 程序 设计 语言 关于 标识 符 的 词法 定义 是 
不 尽 相 同 的 ， 例 如 ，C 语言 规定 标识 符 可 以 是 以 字母 、 下 画 线 开 头 后 跟 字 母 、 下 画 线 、 数 字 
的 任意 组 合 。 而 Pascal 语言 规定 标识 符 可 以 是 以 字母 开头 后 跟 字 母 、 数 字 的 任意 组 合 。 由 于 
在 识别 单词 前 ， 待 识别 单词 的 起 始 位 置 是 已 知 的 ， 因 此 ， 不 必 过 多 考虑 。 这 个 小 程序 的 设计 
应 该 是 非常 容易 的 。 下 面 ， 以 Pascal 语言 为 例 ， 给 出 简单 的 设计 流程 ， 如 图 2-2 所 示 。 


全 


当前 搜索 指针 
指向 的 字符 是 否 为 
字母 或 数字 


搜索 指针 后 移 一 个 字符 


当前 搜索 指针 指向 
的 字符 是 否 为 字母 


搜索 指针 后 移 一 个 字符 


pa 


图 2-2 识别 Pascal 标识 符 的 程序 流程 


2.2.2 ”转换 图 
从 图 2-2 中 ， 不 难 发 现 ， 其 中 只 有 “搜索 指针 后 移 一 个 字符 ”一 种 处 理 动作 〈 方 框 )。 
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编译 器 设计 之 路 


So 


那么 ， 


读者 不 妨 想象 一 下 ， 词 法 分 析 器 是 否 就 只 有 这 种 处 理 动作 昵 ? 仔细 分 析 手 工 识别 单词 


的 过 程 后 ， 就 可 以 发 现 事 实 确 实 如 此 。 既 然 词法 分 析 器 的 流程 中 条 件 判断 〈 获 形 框 》 比 较 复 
而 处 理 动 作 非 常 单一 ， 因 此 ， 可 以 将 普通 流程 图 改造 成 一 种 专门 用 于 描述 条 件 判断 的 流 


杂 ， 


点 ， 
人 


于 改进 一 些 已 有 的 工具 


程 图 。 具 体 改造 步 又 如 下 : 


1) 把 图 2-2 中 所 有 上 、 下 雁 形 《判断 ) 之 间 的 箭头 用 圆 表示 。 
2) 把 图 2-2 中 所 有 的 萎 形 直接 用 箭头 线 表示 ， 箭 头 上 写 上 原 鞭 形 的 判断 成 立 与 否 的 条 


， 即 可 得 到 图 2-3。 


字母 、 数 字 


字母 Wy 非 字母 与 数字 


图 2-3 ”识别 Pascal 标识 符 的 状态 转换 图 


这 里 省 略 了 出 错 处 理 ， 由 于 词法 分 析 器 的 出 错 处 理 可 以 统一 完成 ， 所 以 无 需 重复 考虑 。 


那么 ， 将 图 2-2 改造 成 图 2-3 的 意义 是 什么 呢 ? 实际 上 ， 主 要 针对 词法 分 析 器 的 流程 特 


突出 了 流程 中 最 为 复杂 的 部 分 ， 省 略 或 简化 相对 简单 的 部 分 ， 这 样 的 改造 便于 更 直观 地 
分 析 问 题 的 本 质 。 这 种 分 析 问 题 的 方法 在 软件 系统 分 析 与 设计 过 程 中 较为 常用 ， 读 者 应 该 善 


， 使 之 更 有 利于 分 析 问 题 。 


图 2-3 对 于 词法 分 析 器 设计 具有 非常 重要 的 作用 。 在 形式 语言 学 中 将 这 种 图 称 为 转换 


图 (transition diagrams)， 亦 称 为 状态 转换 图 。 
转换 图 是 一 个 有 向 图 。 在 转换 图 中 ， 圆 表示 状态 ， 状 态 之 间 用 箭 绝 连接 。 箭 弧 上 的 标记 


表示 在 箭 弧 始 结 点 的 状态 下 读 入 给 定 字 符 或 字符 集 时 ， 当 前 状态 转 到 箭 弧 终结 点 所 示 状 态 。 


例如 ， 


〈 即 


图 2-3 在 开始 状态 下 ， 若 输入 字母 ， 则 转换 到 状态 1。 一 张 转换 图 只 包含 有 限 个 状态 
了 限 个 结 点 )， 其 中 ， 有 一 个 是 初始 状态 〈 图 2-3 中 的 “开始 ”状态 )， 而 且 必 须 至 少 有 


一 个 终止 状态 〈 用 双 圈 表 示 ， 读 者 可 以 将 终止 状态 理解 为 可 终止 状态 ， 而 其 他 状态 即 为 不 可 
终止 状态 )。 那 么 ， 如 何 运 用 转换 图 完成 单词 的 识别 呢 ? 实际 上 ， 识 别 一 个 单词 就 是 从 初始 


状态 经 过 数 次 转换 到 达 终 止 状态 的 过 程 。 如 果 某 一 个 字符 串 的 识别 过 程 不 能 到 达 终 止 状态 ， 


说 明 输入 字符 串 不 能 被 该 转换 图 接收 。 
下 面 ， 应 用 转换 图 来 分 析 一 个 复杂 的 实例 。 在 Pascal 词法 分 析 器 中 最 复杂 的 就 是 识别 实 
量 的 逻辑 流程 。Pascal 的 实 型 常量 有 两 种 形式 : 普通 小 数 形式 、 科 学 记 数 法 的 小 数 形 


型 党 


日 


式 ， 例 如 ，2.34、 


23.4E32、46.1e-43、30.e12 等 都 是 合法 的 实 型 常量 ， 而 诸如 .32、31.3e、 


32.3E13.2 等 形式 都 是 非法 的 实 型 常量 。 读 者 可 以 参考 图 2-4。 
数字 数字 数字 
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人 2999 


图 2-4 识别 Pascal 实 型 常量 的 转换 图 


词法 分 析 | 第 2 膏 


读者 可 能 会 有 疑惑 ， 为 什么 图 2-4 没有 考虑 实 型 常量 的 +/- 号 ? 实际 上 ， 在 词法 分 析 


时 ， 只 能 将 “-” 识 别 成 运算 符 ， 但 无 法 确定 其 


法 分 析 阶 段 完 成 。 因 此 ， 词 法 分 析 器 无 法 确 


实 型 常量 的 角度 而 言 ， 
作 人 少量 改进 。 这 号 


四 ， 值 得 注意 上 


ARRAY [1..10] OF INTEGER:; 


这 种 声明 


直接 转 到 状态 7， 随 


区 式 对 图 2-4 提出 了 挑战 。 在 上 伪 


下 面 ， 再 来 看 


示 形 式 。 首 先 ， 从 开始 箭头 进入 ; 
2 时 ， 读 取 第 二 个 

在 状态 2 时 ， 读 取 第 
“3” 状态 3 遇 到 数字 时 仍然 停留 在 状态 3。 
即 转 入 状态 4。 在 状态 4 时 ， 读 取 第 六 个 字 各 


at 


识别 原则 ， 词 法 分 析 器 继续 读 取 下 一 
时 ， 读 取 一 个 非 数 字 字符 即 转 入 状态 7。 至 ] 


到 底 是 用 作 负 号 还 是 减 号 。 这 个 工作 将 在 语 


“92.3E1”。 这 是 一 个 合法 的 实数 常量 表 
天 态 1。 在 状态 1 时 ， 读 取 到 数字 即 转 入 状态 2。 在 状态 
二 个 字符 “2”， 根据 圆 弧 箭头 指示 ， 状 态 2 遇 到 数字 时 仍然 停留 在 状态 2 。 
三 个 字符 “.” 状态 2 即 转 入 状态 3。 在 ; 
在 状态 3 时 ， 读 取 第 五 个 字符 “E” 状态 3 
“1”， 状态 4 转换 为 状态 6。 根 据 超前 搜索 
个 字符 必定 不 是 数字 。 在 状态 6 
比 ， 状 态 转 换 停留 在 状态 7 上 ， 状 态 7 是 终止 


人 必 铸 


否 将 “-” 直 接 与 后 续 常 量 组 合 。 仅 从 识别 
图 2-4 已 经 足够 完整 了 。 但 从 实际 编译 器 设计 的 角度 而 言 ， 可 能 还 需 
的 是 标准 Pascal 中 的 数组 声明 形式 ， 例 如 : 


PhP， 当 词法 分 析 器 读 取 第 二 个 “.” 时 ,将 
完成 单词 “1.” 的 识别 ， 这 与 原始 的 语义 是 完全 相悖 的 。 实 际 上 ， 正 
确 的 识别 结果 应 该 是 得 到 “1”“..””“10” 三 个 单 i 
如 何 应 用 图 2-4 识别 


厂 态 3 时 ， 读 取 第 四 个 字符 


状态 《〈 即 双 圈 状态 )， 故 判定 输入 字符 串 合 法 有 效 。 表 2-3 给 出 几 个 实例 分 析 ， 请 读者 仔 


细 理 解 。 


表 2-3 识别 实 型 常量 的 实例 分 析 
状态 转换 


识别 结果 


1234 122 有 效 《〈 到 达 终 止 态 7) 
192.32 2 有 效 〈 到 达 终 止 态 7) 
192a2 | 无 效 〈 到 达 非 终止 态 2) 
Al2s E 无 效 〈 到 达 非 终止 态 1) 
1.104E19 1,2,3,3,3,3,4,6,6,7 有 效 《〈 到 达 终 止 态 7) 
12E12.98 
—12.12 
+32.E23 
43.1E3.9 


i 
图 与 普通 流程 


图 之 间 的 联系 ， 才 能 i 
在 2.3 节 详 细 分 析 。 


请 读者 自行 补充 表 2-3 中 空白 区 域 ， 以 加 深 对 转换 医 


2.2.3 ”构造 词法 分 析 器 


前 面 已 经 阐述 了 词 沪 


分 析 器 如 何 识别 单词 及 如 何 应 月 
面 将 详 述 如 何 高 效 地 应 用 转换 图 实现 词法 分 析 器 。 


方法 的 理解 。 只 有 理解 了 转换 
行 词 法 分 析 器 的 设计 。Neo Pascal 语言 的 完整 转换 图 将 


图 描述 词法 分 析 器 等 问题 。 下 


B ER i 
辐 。 编译 器 设计 之 路 
ee 


转换 图 是 由 程序 流程 图 改进 而 成 的 。 同 样 ， 转 换 图 也 可 以 等 价 地 转换 为 程序 流程 图 。 


完整 的 转换 图 就 是 词法 分 析 器 的 程序 流程 图 ， 是 实现 词法 分 析 器 的 依据 。 早 期 的 编译 器 都 


严重 的 不 足 : 程序 的 撞 


们 的 精湛 技艺 是 分 不 
理论 研究 的 成 果 。 


经 过 计算 机 科学 家 的 多 年 探索 ， 设 计 一 个 能 够 根据 转换 图 模仿 人 工 应 用 转换 图 识别 单 
词 的 过 程 完 成 词法 分 析 的 程序 并 非 完全 不 可 能 的 。 读 者 可 以 想象 一 下 ， 模 仿 人 工 识别 的 过 
程序 实现 并 不 复杂 。 司 


程 


就 是 这 种 方式 实现 的 词法 


是 采用 这 种 方式 手工 编码 实现 的 。 这 种 实现 方式 对 编译 器 设计 者 的 编程 技巧 要 求 非常 高 。 
如 果 非 常 机 械 地 完全 按照 转换 图 的 描述 编码 ， 所 得 到 的 词法 分 析 器 的 执行 效率 可 能 比较 
低 ， 必 须 运 用 编程 技巧 使 词法 分 析 器 尽 可 能 精 悍 高 效 。 因 此 ， 这 种 编码 实现 方式 存在 一 个 
合 度 高 。 当 词法 定义 发 生 改 变 时 ， 词 法 分 析 器 的 改动 将 非常 大 ， 
至 是 颠覆 性 的 。 然 而 ， 为 什么 早期 的 编译 器 大 多 采用 这 种 方式 编码 实现 呢 ? 最 主要 的 原因 


分 析 器 运行 时 所 需 的 存储 空间 的 代价 相对 较 小 。 当 然 ， 这 与 大 师 


于 的 。 下面， 笔者 介绍 一 种 更 简单 的 实现 方法 ， 它 是 词法 分 析 器 核心 


主要 的 问题 就 是 如 何 将 转换 图 输入 计算 机 ， 并 且 可 以 由 词法 分 析 


器 进行 处 理 。 


显然 ， 转 换 图 的 形式 是 不 利于 输入 计算 机 的 ， 众 所 周知 ， 最 便于 程序 处 理 的 数据 结 
构 就 是 表格 。 如 果 能 将 转换 图 转化 为 表格 或 者 类 似 的 数据 结构 ， 那 么 ， 词 法 分 析 器 就 可 


以 识别 并 处 理 转 换 医 


个 步 又 : 


了 。 事 实 上 ， 将 转换 图 等 价 转换 为 二 维 表格 的 过 程 可 以 参照 以 下 四 


1) 将 转换 状态 集合 作为 行 ， 将 所 有 箭 弧 上 的 字符 集合 作为 列 。 
2) 按 箭 弧 填 写 表格 中 的 单元 格 。 填 写 方法 如 下 : 在 箭 弧 始 结 点 状态 所 在 的 行 和 箭 弧 上 
的 标记 所 在 的 列 所 指示 的 单元 格 中 填 入 箭 弧 终 结 点 状态 。 依 此 法 将 转换 图 中 的 所 有 箭 弧 填 入 


表格 中 。 
3) 在 空 单元 格 内 十 
和 


入 另 一 个 特殊 标记 “-1”， 表 示 该 行 状 态 下 不 允许 读 入 该 列 “ 字 


4) 用 特殊 标记 标识 转换 状态 集合 中 的 开始 状态 与 终止 状态 ， 这 里 分 别 使 用 “*” 与 


缀 妊 加 
oO 


按照 上 面 的 步骤 ， 可 以 将 图 2-4 转换 为 表 2-4 的 形式 。 


表 2-4 Pascal 实 型 常量 转换 表 


0 1 2 3 4 5 6 了 8 9 赴 过 E © 其 他 
1* 2 之 2 之 2 2 2 之 2 之 = -1 村 -1 -1 = 
2 2 2 2 2 2 2 2 2 2 之 -1 -1 -1 =] 3 本 
3 3 3 3 3 3 3 3 3 3 3 7 7 4 4 7 7 
4 6 6 6 6 6 6 6 6 6 6 3 $ -1 =] -1 =] 
5 6 6 6 6 6 6 6 6 6 6 -1 -1 -1 = -1 -1 
6 6 6 6 6 6 6 6 6 6 6 7 4 7 7 7 
7# -1 -1 -1 -1 -1 1 =} 村 -1 | -1 本 -1 = -1 本 


注意 ,“#”“*#2” 之 类 的 特殊 标记 可 以 任 选 。 另 外 ， 这 里 的 “其 他 ”是 简略 书写 ， 完 整 
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的 转换 表 应 该 罗列 该 语言 可 以 接受 的 所 有 字符 〔 除 数字 、+/-、E/e 外 )。 


转换 


读者 可 以 自行 选择 实例 进行 分 析 。 


表 2-4 的 功能 完全 等 价 于 图 2-4 的 转换 图 。 表 格 的 行 表示 原 转换 图 的 状态 集合 ， 列 表示 
图 中 所 有 字符 集合 。 表 格 中 的 单元 格 表示 所 在 行 状态 下 读 入 一 个 所 在 列 的 字符 时 转 入 的 
状态 。 


下 面 ， 就 来 设计 一 个 基于 转换 表 进 行 自动 识别 单词 的 程序 ， 即 简单 的 词法 分 析 器 。 程 序 
2-1 并 非 完整 的 Neo Pascal 词法 分 析 器 ， 只 是 旨 在 说 明 如 何 设 计 一 个 基于 转换 表 的 词法 分 析 


器 。 理 解 了 此 算法 思想 ， 也 就 理解 了 词法 分 析 器 的 核心 。 
程序 2-1 Lex.cpp 
1 intLexTbl[128][100]; 
2 voidLexParse(string szSourceTxt) 
2 1 
4 int iPos=0; 
5 bool bTag=true; 
6 int iState=0; 
六 string szBuffer=""; 
8 while (iPos<szSourceTxt.length() && bTag) 
9 { 
10 szBuffer=szBuffer+szSourceTxt.at(iPos); 
11 int INextState=LexTbl[szSourceTxt.at(iPos)][iState]; 
ly if (iNextState==-1) 
13 bTag=false; 
14 else 
ls if (!IsTerminal(iNextState)) 
16 iPos= INextState; 
17 else 
18 { 
19 iPos—; 
20 szBuffer.erase(szBuffer.end()-1); 
多 | ProcessToken(); 
2 szBuffer=""; 
23 iState=0; 
24 } 
25 } 
26  } 


I 


是 否 


第 1 行 : 声明 转换 表 ， 第 一 维 表示 语言 的 字母 表 ， 第 二 维 表示 状态 。 


第 4 行 ，iPos 表示 源 程序 当前 读 取 位 置 ， 即 读 取 指针 。 


第 6 行 : iState 表示 当前 状态 ， 初 始 设置 为 0， 即 表示 开始 ， 


第 7 行 : 单词 缓存 区 


第 8 一 25 行 : 循环 读 取 源 程序 文本 字符 ， 直 至 源 程序 文本 尾 。bTag 标志 指示 当前 和 


出 错 。 
第 10 行 : 将 源 程序 的 当前 字符 加 入 单词 缓存 区 。 
第 11 行 : 查询 当前 状态 下 读 取 当前 字符 时 的 转换 状态 


这 是 
这 是 


大 态 为 0。 


程序 的 核心 部 分 。 


词 
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第 12 行 : 


第 13 行 : 置 


J]: 调用 IsTerminal 函 


如 果 碍 询 得 到 的 转换 状态 为 -1， 表 示 当 前 状态 下 不 允许 读 取 当 前 字符 。 
出 错 标志 bTag 为 true。 
数 判 断 转 换 状 态 是 否 为 终止 状态 。 


第 16 行 : 将 当前 状态 设 为 查询 得 到 的 转换 状态 。 
第 17 行 : 当前 状态 下 读 取 当 前 字符 时 ， 转 换 状 态 为 终止 状态 ， 即 得 到 一 个 单词 。 


第 19 行 : 旧 
第 20 行 
第 21 行 : 调 
第 22 行 


退 一 个 字符 。 


实现 ProcessToken 函 


问题 。 
词法 分 析 器 识别 
回答 的 。 
在 编译 器 设计 中 ， 
行 号 )。 
单词 行 号 一 般 包 含 两 部 分 信息 : 
号 。 这 些 信息 主要 用 于 


号 信息 还 是 程序 调试 的 重要 依据 。 调 试 


关系 ， 而 建立 这 些 行 号 对 应 关系 的 基 而 


得 到 的 单词 流 是 语 


昌 于 超前 搜索 识别 ， 必 须 将 当前 读 取 位 置 回 退 一 个 字符 。 
J: 将 单词 缓存 区 回 
ProcessToken 处 理 单词 。 
了 : 将 单词 缓存 区 清空 。 

J: 当前 状态 置 为 0。 

程序 2-1 虽然 只 有 26 行 ， 却 是 词法 分 析 器 的 核心 。 请 读者 务必 理解 该 程序 的 设计 思 
想 。 另 外 ， 为 了 便于 设计 与 实现 ， 本 书 所 有 的 程序 都 将 使 用 
数 ， 这 个 函数 的 主要 功能 是 处 理 与 输出 单词 。 下 面 ， 就 详细 讨论 这 个 


C++ 描述 。 在 程序 2-1 中 没有 


法 分 析 器 的 输入 ， 那 么 ， 词 法 分 析 器 需要 提供 
哪些 信息 给 语法 分 析 器 呢 ? 以 什么 方式 传递 给 语法 分 析 器 呢 ? 这 些 问题 是 


需要 设计 者 


最 常见 的 单词 存储 


式 就 是 三 元 组 (单词 ID， 单 词 备注 


单词 


单词 所 在 的 源 程序 文件 名 、 单 词 在 源 程序 文件 中 的 行 
8 错 处 理 ， 可 以 提供 错误 的 位 置信 息 ， 便 于 用 户 定位 修改 源 程 序 。 行 


言 息 中 主要 包含 的 就 是 源 程 / 


与 上 


标 程序 之 间 的 对 应 


其 次 ， 对 于 编译 器 


吾 ， 


论 这 三 类 单词 的 表示 形式 。 
标识 符 的 表示 形式 :〈 标 识 符 的 ID， 用 户 标 识 符 名 ， 单 词 行 号 )。 通 常 ， 所 有 用 户 标 识 


符 都 使 用 同一 ID。 而 在 “单词 备注 ” 域 中 存储 用 户 标 识 符 的 实际 名 字 。 
常量 的 表示 形式 :〈 常 量 的 ID， 在 常量 表 中 的 位 置 ， 单 词 行 号 )。 通 
据 常 量 的 类 型 确定 的 ， 即 相同 数据 类 型 的 常量 


正 的 详细 数据 类 型 ， 在 词法 分 析 阶 段 ， 只 将 常量 分 为 整 型 、 实 型 、 字 符 串 等 类 型 ， 


三 
候 


详细 区 别 是 哪 种 六 


数据 类 型 。 


在 常量 的 三 元 组 中 必须 记录 该 常 


系统 单词 〈 即 关键 字 、 运 算 符 、 界 符 ) 的 表示 形式 : (ID， 不 
程序 设计 语言 的 每 一 个 系统 单词 都 拥有 


数据 就 是 单词 行 号 。 
单词 可 以 分 为 三 类 : 标识 符 、 和 常量、 系统 单词 。 下 面 ， 分 别 讨 


常 ， 常 量 的 ID 是 根 
和 ID 是 相同 的 。 当 然 ， 这 里 的 数据 类 型 并 不 


无 需 


细 类 型 〈 例 如 ，INTEGER、SHORTINT 等 )。 常 量 ID 可 用 于 指示 常量 的 
在 词法 分 析 时 ， 对 识别 所 得 到 的 常量 还 必须 登记 入 常量 表 ， 便 于 语法 分 析 使 用 。 
量 在 常量 表 中 的 位 置 。 


使 用 ， 单 词 行 号 )。 通 常 ， 


个 唯 


的 ID 编号 。 语 法 分 析 器 只 需 根据 ID 就 可 以 


区 别 是 哪个 系统 单词 了 。 而 系统 单词 的 三 元 组 中 “单词 备注 ” 域 是 不 使 用 的 。 不 难 发 现 ， 词 


法 分 析 器 对 于 关键 字 、 运 算 符 、 界 符 身 
为 系统 单词 类 。 关 于 Neo Pascal 的 系统 单词 及 其 
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LE 词 的 处 理 是 完全 相同 的 ， 


因此， 笔者 才 将 这 三 类 合 3 


ID 可 参见 2.3.1 节 。 


最 后 ， 


简单 讨论 一 


下 单词 流 是 如 何 传递 给 语法 分 


器 的 。 
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这 主要 取决 于 词法 分 析 是 


作为 一 个 独立 阶段 还 是 将 它 设计 为 独立 的 一 遍 。 词 法 分 析 作 为 一 个 独立 阶段 就 是 指 将 词 
法 分 析 器 作为 一 个 函数 ， 由 语法 分 析 器 调用 。 每 次 调用 词法 分 析 器 只 识别 一 个 单词 ， 然 
后 将 单词 直接 传递 给 语法 分 析 器 处 理 。 整 个 过 程 由 语法 分 析 器 控制 ， 在 语法 分 析 过 程 
中 ， 进 行 单 词 识别 。 词 法 分 析 作 为 独立 的 一 遍 就 是 指 词法 分 析 器 将 对 整个 源 程 序 文件 扫 

次 ， 识 别 出 所 有 的 单词 ， 然 后 将 源 程序 以 单词 流 的 方式 传递 给 语法 分 析 器 处 理 。 这 
两 种 方式 各 有 利弊 ， 且 各 有 成 功 的 应 用 案例 。 为 了 使 读者 更 清晰 地 理解 编译 器 的 架构 ， 


故 Neo Pascal 将 词法 分 析 作 为 独立 的 一 遍 扫描 。Neo Pascal 词法 分 析 器 的 模型 示意 如 图 
2-5 所 示 。 
查 
2-5$ 词法 分 析 器 模型 
至 此 ,已 经 i a de 法 分 析 器 的 设计 ， 读 者 对 词法 分 析 的 基本 理论 、 设 计 思 想 与 和 
法 核心 应 该 有 所 了 解 ， 这 是 剖析 Neo Pascal 词法 分 析 的 基础 。 
E 词法 分 析 器 的 实现 
2.3.1 词法 定义 
必须 明确 程序 设计 语言 的 词法 定义 。 词 法 定义 是 一 门 程序 设计 语 
言 的 必要 。 同 时 ， 词 法 定义 也 直接 关系 着 词法 分 析 器 的 复杂 程度 ， 甚 至 并 非 所 有 的 词法 
定义 都 例如 ， 假 设 C 语言 的 词法 定义 规定 标识 符 中 可 以 出 现 “*” 则 这 样 的 词法 
定义 是 很 难 实现 的 。 
表 2-5 详细 描述 了 Neo Pascal 的 词法 定义 。 
表 2-5 Neo Pascal 词法 定义 
标 | 以 字母 开头 ， 后 眼 字母 与 数字 的 任意 组 合 的 字符 串 
| ID: 00l 
符 
Neo Pascal 一 共 包 含 13 个 运算 符 ， 分 别 是 : 
加 ID 单词 ID 单词 ID 单词 ID 单词 ID 单词 
入 016 = 017 = 018 < 019 ~ 020 ze 
符 021 > 022 >= 023 汪 024 - 025 * 
026 / 027 ^ 028 @ 
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( 续 ) 
Neo Pascal 一 共 包含 9 个 界 符 ， 分 别 是 : 
界 ID 单词 ID 单词 ID 单词 ID 单词 ID 单词 
符 007 008 ( 009 ) 010 011 
012 013 014 [ 015 ] 
关键 字 是 特殊 的 标识 符 ， 必 须 符合 标识 符 的 定义 。Neo Pascal 一 共 包 含 54 个 关键 字 ， 分 别 是 : 
ID 单词 ID 单词 ID 单词 ID 单词 ID 单词 
040 ASM 041 AND 042 ARRAY 043 BEGIN 044 | BOOLEAN 
045 BYTE 046 BREAK 047 | CARDINAL | 048 CASE 049 CHAR 
050 CONST 051 | CONTINUE | 052 DIV 053 DO 054 | DOWNTO 
关 055 ELSE 056 END 057 FILE 058 FOR 059 | FORWARD 
键 060 | FUNCTION | 061 GOTO 062 IF 063 IN 064 | INTEGER 
065 LABEL 066 | LONGWORD | 067 MOD 068 NIL 069 NOT 
070 OF 071 OR 072 | PROCEDURE | 073 | PROGRAM | 074 REAL 
075 | RECORD | 076 REPEAT 077 SET 078 SHL 079 | SHORTINT 
080 SHR 081 SINGLE 082 | SMALLINT | 083 STRING | 084 THEN 
085 TO 086 TYPE 087 UNTIL 088 USES 089 VAR 
090 WITH 091 WHILE 092 WORD 093 XOR 
ID: 002。 例 : Tam a boy." 
A ID: 003。 例 : 324、32 
ID: 004。 例 : 43.53、62.034 
量 | 带 + 广 号 的 科学 记 数 形式 实 型 常量 Ds 005。 例 : 43.12E-23 
不 带 +/- 号 的 科学 记 数 形式 实 型 常量 ，ID: 006。 例 : 41.09E12 
表 中 的 ID 是 笔者 自行 编制 的 。 为 了 方便 管理 ， 尺 可 能 将 同类 单词 编 在 同一 段 ID 中 。 在 


行 ID 编号 时 ， 应 注意 预 留 一 定 ID 
界 符 。 当 然 ， 也 可 以 直接 在 093 之 后 扩展 ， i 


现象 。 另 外 ， 


笔者 将 Neo Pascal 的 常量 


空间 ， 


以 便 扩 尾 


分 成 了 五 种 类 


， 为 其 


便于 语法 分 析 器 只 需 简单 判断 单词 ID 就 可 以 断定 党  ， 型 ， 


例如 ，Neo Pascal 中 的 数组 声明 规定 上 、 
EE 词 ID 
词法 分 析 器 主要 包括 : 构造 转换 图 与 转换 表 、 设 计 词 
只 别 单词 。 不 过 ， 事 实 3 
法 是 不 足以 完成 词法 


限 单词 时 ， 


就 是 依据 转 


故 ， 仪 仪 依 据 程序 2-1 的 全 


只 霍 关 


IW 


A 八 而 九 


换 图 座 


是 否 为 003 


即 可 。 


法 分 析 器 设计 与 实现 细节 
2.3.2 ”构造 转换 图 与 转换 表 


笔者 根据 Neo Pascal 的 词法 定义 
完整 的 程序 设计 语言 ，Neo Pascal 的 转换 


义 阅 读 。 
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下 限 必 须 是 整 型 


Am 导 . 
吊 里 ， 


法 分 析 器 算法 。 词 


tH 现 同类 


分 配 了 不 同 


。 例 如 ，029~039 便 预 留 给 了 运 信 
单词 不 在 同一 段 ID 
的 ID。 这 种 处 理 


符 和 
中 的 


Wi 


EE 


首 非 完全 如 此 。 由 于 


绘制 了 完整 的 转换 图 ， 如 图 
图 必定 是 比较 复杂 的 ， 


分 析 的 。 下面， 将 详 


而 不 需要 详细 


查询 常量 表 。 
去 分 析 器 分 析 到 上 、 下 


法 分 析 器 的 核心 
于 某 些 程序 设计 语言 的 词法 定义 缘 
分 析 Neo Pascal 的 词 


2-6 所 示 。 作 为 一 门 
读者 可 以 配合 


词法 定 
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空格 回 车 
Tab\_、 [其 他 ] 
C02) FRR 
( 
-() 一 ~ -0) CO) Ce 注释 终止 状 态 
) 
[全 部 ] 他 ] ee 
-2) Co) ws [其他 人 人 全 
0 
[其 他 ] 2 多 让 状态 
Ora = 
[全 部 ] 
-CO 终止 状态 [其 他 ] 
[全 部 ] 可 车 [全 部 ] nt 
@ © OO we 
/ / 
[其 本 -CO 终止 状态 整 型 终止 状态 
[数字 ] 整 型 终止 状态 | 需要 回 退 两 个 字符 
[其 他 ] -@ [数字 ] 
ns -(;) 他 二 (04)) 普通 实 型 络 止 状态 
-Da 
rg 
上 © 2 一 号 的 科学 记 数 实 型 终止 状态 
-© 他 @E CO 号 的 科学 记 数 实 型 终止 状 志 
有 [全 部 ] 疗 | 
. -Go) Nr 国有 
2 [全 部 CO ， 终止 状态 
[数字 ] 
A 全 部 ] “<>” 终 止 状态 
0 -© i 
-Om (9) 和 (0) “—" gens 
“@” 终 下 状态 
全 部 “>=” 终 止 状态 
[ [本 他 “>" 终止 状态 
-(7) L 训 | “[” 终止 状态 
] 
字母] 
[其 他 ] @ S 
标识 符 终止 状态 
se 
[数字 ] 


2-6 Neo Pascal 词法 转换 


| 
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ee 


为 了 便于 读者 理解 ， 这 里 对 图 2-6 作 几 点 说 明 : 
(1) 图 中 [全 部 ]、[ 其 他 ] [字母 }、[ 数 字 ] 是 字符 集 的 简化 表示 形式 。 例 如 ，[ 字 
母 ] 表示 箭 弧 射 出 状态 下 输入 任意 字母 时 都 转 入 箭 弧 射 入 状态 。 


(2) 终止 状态 都 以 “-” 开 头 ， 以 区 


别 非 终止 状态 。 


(3) 由 于 Neo Pascal 是 不 带 编译 预 处 理 器 的 ， 所 以 注释 也 将 作为 单词 识别 ， 只 是 不 将 识 
别 得 到 的 单词 输出 而 已 。Neo Pascal 接受 两 种 注释 形式 ， 即 (* *) 与 / ， 功 能 与 C 语言 


的 ## */ 与 // 完全 一 样 。 


下 面 通过 一 个 特例 来 说 明 程 序 2-1 算法 的 不 足 。 


在 标准 Pascal 语言 中 ， 一 般 会 使 用 如 下 形式 的 语句 声明 数组 : 


【声明 2-1 】 


VAR i:ARRAY [1..10] OF INTEGER， 


那么 ， 当 词法 分 析 器 识别 完 单词 “[ ”后 ， 返 回 状态 1， 当 前 字符 位 置 指向 “1”， 准 备 


识别 下 一 个 单词 。 在 状态 1 下 读 取 多 让 


转 入 状态 4， 当 前 字符 位 置 指向 第 一 个 “.”。 在 状态 


4 下 读 取 “.” 转 入 状态 5S， 当 前 字符 位 置 后 移 一 位 指向 第 二 个 “.”。 在 状态 5 下 读 取 “.” 转 


入 状态 -42， 当 前 字符 位 置 后 移 一 位 指向 


“1” 由 于 状态 -42 是 终止 状态 ， 根 据 程序 2-1 的 


算法 ， 缓 冲 区 与 当前 字符 位 置 都 将 回 退 一 个 字符 。 此 时 缓冲 区 的 字符 串 为 “1.” 而 当前 字符 


位 置 指向 第 二 个 “.”。 显 然 ， 将 字符 串 “1.” 识 别 为 单词 “1.” 与 “.” 都 不 正确 ， 而 应 该 识 


别 为 单词 “1” 与 “..”。 实 际 上 ， 主 要 是 


情况 只 超前 搜索 一 个 字符 。 因 此 ， 在 处 理 终 止 状态 -42 时 ， 必 须 将 缓冲 区 与 当前 字符 位 置 回 


由 于 在 识别 “..” 时 需要 超前 搜索 两 个 字符 ， 而 通常 


退 两 个 字符 ， 故 程序 2 = 无 法 正确 识别 单 词 o 


超前 搜索 几 个 字符 与 词法 定义 有 关 ， 


有 些 设计 不 精良 的 语言 可 能 需要 超前 搜索 三 个 甚至 


四 个 字符 才能 正确 识别 单词 。 反 复 回溯 搜索 会 大 大 降低 词法 分 析 器 的 执行 效率 ， 故 在 设计 一 
门 程序 设计 语言 时 ， 应 尽 可 能 做 到 只 需 超前 搜索 一 个 字符 就 可 以 完成 所 有 单词 的 识别 。 读 者 


不 妨 考虑 一 下 ，C 语言 是 否 也 存在 超前 搜索 两 个 字符 的 情况 呢 ? 

通常 ， 完 全 可 以 通过 修改 程序 设计 语言 的 词法 定义 避免 超前 搜索 两 个 字符 。 但 为 了 与 标 
准 Pascal 兼容 ，Neo Pascal 仍然 继承 标准 Pascal 的 词法 定义 。 

从 转换 图 导出 转换 表 的 算法 是 非常 简单 的 ， 却 比较 费时 费力 ， 具 体 过 程 请 参见 2.2 节 ， 
读者 可 在 Neo Pascal 的 电子 文档 中 找到 完整 的 转换 表 。 


2.3.3 ”相关 数据 结 
下 面 就 来 看 看 词法 分 析 器 的 相关 数 


四 结构 。 词 法 分 析 器 相关 的 数据 结构 主要 包括 : 转换 


表 、 关 键 字 表 、 常 量 表 及 其 单词 流 。 常 量 表 暂 不 作 详 述 ， 将 在 第 4 章 详 细 分 析 。 


1. 转换 表 


转换 表 是 词法 分 析 器 的 核心 。 通 常用 二 维 数组 表示 ， 数 组 元 素 可 以 根据 实际 情况 而 定 ， 
Neo Pascal 的 转换 表 元 素 为 整 型 。 转 换 表 的 声明 形式 如 下 : 


【声明 2-2 】 


int m_SzLexTbl[S0][130]; 
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第 1 维 表示 状态 集 ， 第 2 维 表示 Neo Pascal 允许 输入 的 字符 集 。Neo Pascal 允许 输入 的 
字符 集 是 指 源 程序 文本 中 允许 输入 字符 的 集合 。 由 于 Neo Pascal 语言 中 组 成 关键 字 、 
符 、 界 符 、 标 识 符 的 字符 ASCII 码 都 小 于 或 等 于 127， 而 ASCII 码 大 于 127 的 字符 只 可 
现在 字符 串 或 注释 中 ， 因 此 ， 所 有 ASCII 码 大 于 127 的 字符 在 转换 表 中 用 一 列表 示 。 这 


转换 表 可 以 表示 为 一 个 42 行 128 列 的 二 维 表 。 


简单 估算 一 下 转换 表 所 占 的 内 存 空间 大 约 为 21KB， 不 难 发 现 ， 使 用 转换 表 实 现 的 词法 
分 析 器 的 最 大 缺点 就 是 所 消耗 的 存储 空间 比较 大 。 这 是 早期 编译 器 不 使 用 这 一 方案 实现 词法 


以 更 多 的 时 


分 析 器 的 最 重要 原因 。 然 而 ， 对 于 今天 的 计算 机 而 言 ，21KB 的 存储 耗费 是 完全 可 以 接受 
的 。 当 然 ， 有 时 也 可 以 应 用 一 些 空间 压缩 技术 以 节省 存储 消耗 ， 不 过 ， 这 可 能 是 
间 耗 费 为 代价 的 。 

2. 关键 字 表 


关键 字 表 用 于 存储 Neo Pascal 的 系统 关键 字 及 其 ID 。 由 于 关键 字 也 是 符合 标识 符 的 定 
义 的 ， 故 在 词法 分 析 时 完全 按照 标识 符 的 词法 定义 识别 单词 。 完 成 标识 符 识别 之 后 〈 即 进入 
终止 状态 -01)， 再 查找 关键 字 表 ， 确 定 该 标识 符 是 否 为 关键 字 。 如 果 是 ， 则 返回 其 ID 。 故 


关键 字 表 一 般 包含 两 个 字段 ， 关键 字 名 、ID。 


由 于 每 次 识别 完 一 个 标识 符 后 ， 都 必须 查找 关键 字 表 ， 故 关键 字 表 的 查找 效率 至 关 重 


这 里 ， 选 择 


要 。 常 用 的 查找 算法 比较 多 ， 例 如， 顺序 、 折 半 、 哈 希 表 、B- 树 、B+ 树 等 。 


STL 中 的 map 结构 来 描述 关键 字 表 。map 的 内 核 是 一 种 红 黑 树 结 构 ， 其 查找 效率 近似 于 哈 希 


表 ， 属 于 比较 高 效 的 。 关 键 字 表 的 声明 形式 如 下 : 
【声明 2-3】 


map<string, int> m_ KeywordTbl; 


3. 单词 流 
将 词法 分 析 作 为 独立 的 一 遍 ， 则 必须 借助 于 单词 流 。 单 词 的 声明 形式 如 下 : 
【声明 2-4】 


struct CToken 

{ 
int m iKind; // 单 词 的 类 型 ， 即 单词 的 也 
string m_szContent; // 单 词 备注 
LineInfo m_LineInfo; // 单 词 行 号 信息 

上 


其 中 LineInfo 结构 用 于 描述 单词 行 号 信息 ， 单 词 行 号 信息 的 声明 形式 如 下 : 
【声明 2-5 】 


struct LineInfo 
{ 
int m iRow; // 单 词 所 在 行 号 
string m _szFileName; // 单 词 所 在 的 源 程序 文件 名 
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由 于 单词 流 的 所 有 元 素 都 是 由 单词 组 成 的 ， 为 了 使 用 方便 ， 这 里 使 用 C++ 的 vector 容器 


代替 传统 的 数组 。vector 容器 是 C++ 的 STL 的 类 ， 单 词 流 的 声明 形式 如 下 : 
【声明 2-6】 


2. 


录 列 号 信息 ， 具 体 情况 视 调 试 器 而 定 。 当 然 ， 记 录 列 号 信息 要 比 行 号 信息 复杂 一 些 ， 尤 其 是 


vector<CToken> TokenList; 


3.4 源 代码 实现 


程序 2-2 Lex.h 


1 classClex 

2 

3 private: 

4 int m_ szLexTbl[50][130]; /转换 表 

5 string m_ szSource; // 源 代码 字符 串 

6 string m_SZFileName; // 源 程序 文件 名 

7 map<string,int> m_ KeywordTbl; // 关 键 字 表 

8 string m_szBuffer; // 单 词 缓存 区 

9 int m iRow; // 当 前 行 号 
10 int m_iNonTerminal; // 当 前 非 终 结 状态 编号 
11 int m_iPos; // 源 代码 当前 读 取 位 置 
12 vector<CToken> *m pTokenList; // 单 词 流 
13 bool Process(int iTag); // 词 法 分 析 处 理 
14 void EmitToken(const int iKind,const string szContent,const int iRow); /记录 单词 函数 
15 void EmitToken(const int iKind,const int iContent,const int 1Row); /记录 单词 函数 
16 bool SearchKeyword(string szKeyWord,int &iPosition); /查询 关键 字 表 函 数 
il% void BufferBack(); /单词 缓存 区 回 退 函 数 
18 ”public: 
19 CLex(); /默认 构造 函数 
20 ~CLex(); /默认 析 构 函数 
21 bool GenToken(vector<CToken> *pTokenList); /生成 单词 流 函数 
22 void SetKeywords(string szStr); /设置 关键 字 表 函数 
23 void SetLexTbl(string szStr); /设置 转换 表 函 数 
24 void SetFileName(string szStr); // 设 置 源 程序 文件 名 函数 
25 } 


在 一 些 现代 编译 器 设计 中 ， 有 时， 词法 分 析 器 不 仅 需 要 记录 行 号 信息 ， 还 有 可 能 需要 记 


在 有 预 处 理 阶 段 的 编译 器 中 。 


人 玉 iiP 一 
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程序 2-3 Lex.cpp 
bool CLex::GenToken(vector<CToken> *pTokenList) 


{ 
bool bTag=true; 
m _iPos=0; 
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四 m pTokenList=pTokenList; 

6 m szSource=FileRead(m szFileName.c_str()); 

区 m szSource.push back(' "); 

8 m iNonTerminal=0; 

9 m szBuffer=""; 

10 m iRow=1; 

11 int TmpPos=0; 

局 m pTokenList->clear(); 

3 while (m iPos<m szSource.length() && bTag) 

14 { 

15 if (m szSource[m iPos|=="\n'&& TmpPos!=m iPos) 
16 { 

ly m iRow+tt+; 

18 TmpPos=m iPos; 

19 } 

20 m szBuffer.push_ back(m szSource.at(m iPos)); 

21 bTag=Process(m szLexTbl[m iNonTerminall[m szSource[m iPosk128?m szSource[m iPos]:128]); 
222 if (!bTag) 

23 { 

24 EmitError(m szFileName+"("+itos(m iRow)+"): 词 法 分 析 错 误 ， 请 检查 单词 "); 
2 return false; 

26 } 

2 m iPos+t+; 

28 } 

29 return bTag; 

30 } 


第 3 行 : 用 于 判定 单词 是 否 正确 的 标志 ， 初 始 置 为 true。 
第 4 行 : 源 程序 文本 的 当前 读 取 位 置 ， 初 始 置 为 0。 


第 6 行 : 读 取 m szFileName 指定 的 文件 ， 将 文件 以 字符 串 形式 返回 置 入 m_szSource。 


第 7 行 : 在 m_szSource 尾部 添加 一 个 空格 ， 以 便 处 理 最 后 一 个 单词 时 ， 也 能 运 
搜索 识别 。 
第 8 行 : 转换 表 的 开始 状态 置 入 m_iNonTerminal， 即 当前 状态 。 
第 9 行 : 单词 缓存 区 清空 。 
第 10 行 : 源 程序 当前 行 号 为 1， 表 示 正 在 处 理 第 1 行 。 
第 11 行 : 单词 流 清空 。 
第 13 行 : 未 读 到 源 程序 尾 并 且 无 出 错 单词 ， 则 继续 识别 单词 。 
第 15 行 : 如 果 当 前 读 入 字符 是 换行 符 ， 则 将 源 程序 当前 行 号 累加 1。 
第 20 行 : 将 当前 读 字 符 加 入 单词 缓存 区 。 
第 21 行 : 查询 当前 状态 下 读 取 当 前 字符 时 的 转换 状态 ， 当 前 字符 ASCII 码 大 于 
时 ， 取 128 即 可 。 
第 27 行 : 当前 读 取 位 置 后 移 一 个 字符 。 


j 超 前 


128 
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程序 2-4 Lex.cpp 


1 boolCLex::Process(int iTag) 
2 
3 int iTmp=0; 
4 if Tag==-99) 
所 return false; 
6 if (iTag<0) 
7 { 
8 BufferBack(); 
9 m szBuffer=trim(m szBuffer); 
10 1f (iTag==-1) 
11 { 
12 m szBuffer=UpperCase(m szBuffer); 
13 if (SearchKeywords(m szBuffer,iTmp)==true) 
14 EmitToken(iTmp+40,NULL,m iRow); 
15 else 
16 { 
17 if (m szBuffer.compare("TRUE")==0llm_szBuffer.compare("FALSE")==0) 
18 EmitToken(3,SymbolTbl.RecConstTbl(m szBuffer,7),m iRow); 
19 Else 
20 EmitToken(1,m szBuffer,m iRow); 
21 } 
22 } 
23 if iTag>=-6 && iTag<—-2) 
24 EmitToken(-iTag,SymbolTbl.RecConstTbl(m szBuffer,-iTag),m_iRow); 
25 if iTag>=-15 && iTag<=-7) 
26 EmitToken(-iTag,NULL,m iRow); 
27 if iTag>=-28 && iTag<=-16) 
28 EmitToken(-iTag,NULL,m iRow); 
29 if (iTag==-42) 
30 { 
31 BufferBack(); 
32 m szBuffer=trim(m szBuffer); 
33 EmitToken(3,SymbolTbl.RecConstTbl(m szBuffer,3),m iRow); 
34 } 
B33 m szBuffer=""; 
30 m_iNonTerminal=0; 
3 以 } 
38 else 
39 m iNonTerminal=iTag; 
40 return true; 
41 } 


第 3 行 : 临时 变量 初始 化 为 0。 
第 4 行 : 下 一 个 转 入 状态 等 于 -99， 表 示 当 前 状态 下 不 允许 读 取 当 前 字符 ， 即 单词 识别 
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出 错 。 
第 6 行 : 下 一 个 转 入 状态 小 于 0， 表 示 当 前 状态 下 读 取 当 前 字符 时 进入 终止 状态 ， 即 单 
词 识 别 完 成 。 


第 8 行 : 由 于 超前 搜索 识别 ， 单 词 缓存 区 、 当 前 读 取 位 置 回 退 一 个 字符 。 

第 9 行 ; 滤 去 单词 缓存 区 的 左右 空格 。 

第 10 行 : 终止 状态 为 -1， 表 示 当 前 单词 是 标识 符 。 

第 12 行 : 注意 ， 这 里 将 字符 串 转 成 大 写 的 原因 是 Pascal 语言 标识 符 是 大 小 写 不 敏 


第 13 行 : 判断 当前 单词 是 否 为 关键 字 。 

第 14 行 : 将 单词 标识 为 关键 字 ， 并 加 入 单词 流 。 

第 17 行 : 判断 当前 单词 是 否 为 TRUE/FALSE (布尔 常量 )。 
第 18 行 : 将 单词 标识 为 常量 ， 并 加 入 单词 流 ， 登 记 常量 表 。 
第 20 行 : 将 单词 标识 为 标识 符 ， 并 加 入 单词 流 。 

第 23 行 : 判断 当前 单词 是 否 为 常量 。 


第 24 行 : 将 单词 标识 为 常量 ， 并 加 入 单词 流 ， 登 记 常量 表 。 
第 25 行 : 判断 当前 分 析 的 单词 是 否 为 界 符 。 

第 26 行 : 将 单词 标识 为 界 符 ， 并 加 入 单词 流 。 

第 27 行 : 判断 当前 单词 是 否 为 运算 符 。 

第 28 行 : 将 单词 标识 为 运算 符 ， 并 加 入 单词 流 。 

第 29 行 : 判断 终止 状态 是 否 为 -42， 在 这 种 情况 下 ， 需 要 处 理 两 次 回 退 。 
第 31 行 : 单词 缓存 区 、 当 前 读 取 位 置 回 退 一 个 字符 。 

第 32 行 : 滤 去 单词 缓存 区 的 左右 空格 。 

第 33 行 : 将 单词 标识 为 整 型 常量 ， 并 加 入 单词 流 ， 登 记 常 量 
第 35 行 : 将 单词 缓存 区 清空 ， 准 备 识别 下 一 个 单词 。 

第 36 行 : 将 当前 状态 置 为 转换 表 的 开始 状态 。 


第 40 行 : 下 一 个 转 入 状态 大 于 或 等 于 0， 表 示 当 前 状态 下 读 取 当前 字符 时 进入 非 终止 
状态 ， 即 单词 未 识别 完成 ， 将 当前 状态 置 为 iTag 指示 的 下 一 个 状态 。 


程序 2-5 Lex.cpp 


1 bool CLex::SearchKeyword(string szKey Word,int &iPosition) 
2 { 
3 map<string,int>::iterator It=m KeywordTbl.find(szKeyWord); 
4 if (Itl=m KeywordTbl.end()) 
5 { 
6 iPosition=It->second; 
风 return true; 
8 } 
9 return false; 
10 } 
第 3 行 : 在 关键 字 表 中 查找 字符 串 。 
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行 : 字 
行 : 返回 关键 字 的 ID。 


程序 2-6 Lex.cpp 


1 void CLex::BufferBack() 

2 上 

3 m szBuffer.erase(m szBuffer.end()-1); 

4 m _iPos--; 

S| } 
第 3 行 : 将 单词 缓存 区 的 最 末 一 个 字符 删除 ， 即 实现 退回 一 个 字符 的 功能 。 
第 4 行 : 将 当前 位 置 回 退 一 个 字符 。 


程序 2-7 Lex.cpp 


1] void CLex::EmitToken(int iKind,string sContent,int iRow) 
2 上 | 
3 m pTokenList->push back(CToken(iKind,sContent,iRow,m szFileName)); 
a } 
3 void CLex::EmitToken(const int iKind,const int iContent,const int iRow) 
0 1 
7 string szTmp; 
8 char cBuffer[5]; 
9 itoa(iContent,cBuffer,10); 
10 szTmp=cBuffer; 
11 EmitToken(iKind,szTmp,iRow); 
De } 


二 


程序 2-6 和 2-7 是 用 于 提交 单词 的 ， 即 把 识别 得 到 的 单词 加 入 单词 流 中 。 


[2.4 深入 学 习 

词法 分 析 理 论 与 技术 的 应 用 是 现代 计算 机 科学 的 一 个 相当 成 功 的 故事 。 无 论 是 手工 构 
造 ， 还 是 自动 生成 词法 分 析 器 都 是 完全 可 行 的 。 本 书 以 介绍 手工 构造 为 主 ， 不 过 ， 实 践 证 
明 ， 依 据 一 定 的 规则 ， 自 动 生成 词法 分 析 器 也 是 一 个 不 错 的 选择 。 其 中 ， 最 经 典 的 实例 就 是 
UNIX 平台 上 的 Lex， 它 是 基于 有 限 自 动机 理论 实现 的 。Lex 根据 输入 的 正则 表达 式 ， 生 成 
相应 的 词法 分 析 器 。 当 然 ， 手 工 编 码 实 现 词法 分 析 器 的 方法 也 是 可 行 的 ， 经 典 实 例 是 不 胜 枚 
举 的 。 两 者 并 不 存在 绝对 的 优 劣 之 分 ， 更 多 关注 的 是 是 否 有 利于 源 语言 的 实现 。 这 里 ， 笔 者 
推荐 一 个 词法 分 析 器 构造 程序 一 一 Flex， 它 的 基本 思想 与 Lex 是 一 脉 相 承 的 。Flex 诞生 于 
1987 年 ， 经 常 与 Bison 一 起 使 用 ， 生 成 词法 、 语 法 分 析 器 。 读 者 可 以 访问 http:/www.gnu.org/ 
software/flex/， 以 获得 更 多 的 相关 人 信息。 当然， 正则 表达 式 作为 形式 语言 和 自动 机 理论 的 早 
期 锥 型 ， 为 搜索 与 扫描 技术 的 发 展 提供 了 源 动 力 ， 广 泛 应 用 于 文本 编辑 、 网 络 检索 、 编 译 
器 、 信 息 安 全 等 领域 。 

自动 机 理论 与 形式 语言 是 计算 机 科学 中 两 个 非常 重要 的 理论 研究 方向 ， 许 多 计算 理论 了 


已 
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籍 都 会 涉及 这 两 个 话题 。 对 于 有 志 于 学 习 与 研究 自动 机 与 形式 语言 的 读者 而 言 , 《自动 机 理 
论 、 语 言 与 计算 导论 》 是 该 领域 一 本 较 新 的 著作 ， 值 得 深入 阅读 。 


1、 编 译 器 工程 Keith D. Cooper, Linda Torczon 机 械 工业 出 版 社 
说 明 : 这 是 一 本 以 介绍 编译 器 实践 工程 为 主 的 教材 ， 堪 称 “ 龙 书 ” 之 后 的 另 一 本 经 典 著作 。 

2、 Lex— A lexical Analyzer Generator M. E. Lesk, E. Schmidt 

说 明 : Lex 是 一 个 基于 有 限 自 动机 理论 实现 的 词法 分 析 器 的 生成 器 ， 也 是 早期 自动 化 生成 技术 的 一 个 经 典范 例 。 


3、ISO/EC 9945 
说 明 : 这 是 一 个 正则 表达 式 的 标准 ， 它 是 对 UNIX 正则 表达 式 规范 的 扩充 及 完善 。 

4、 自 动机 理论 、 语 言 与 计算 导论 〈 原 书 第 2 版 ) John E. Hopcroft, Rajeev Motwani 机 械 工 业 出 版 社 
说 明 : 这 本 书 详细 阐述 了 自动 机 理论 与 形式 语言 的 相关 问题 ， 同 时 还 讨论 了 不 可 判定 性 等 疑难 话题 。 


实践 与 思考 


1. Pascal 语言 是 大 小 写 不 敏感 的 ， 而 C 语言 是 大 小 写 敏感 的 。 从 词法 分 析 器 的 实现 角 
度 而 言 ， 试 问 两 者 的 差异 是 什么 ? 
2. 一 个 STL 的 声明 语句 如 下 : 


map<int, vector<int>> tmp; 


试问 词法 分 析 器 应 该 如 何 处 理 其 中 的 “>>” 呢 ? 根据 极 大 搜索 原则 ， 应 该 将 其 识别 为 
“>>”( 右 移 运 算 符 )， 但 在 此 显然 是 不 适用 的 。 在 《C++ Primer》 中 ， 明 确 指 出 程序 员 必 须 
在 两 个 “>” 之 间 输 入 至 少 一 个 分 隔 符 ， 否 则 视 为 非法 的 。 不 过 ， 在 VC++ 中 ， 对 此 并 没有 
要 求 。( 提 示 : 考虑 回溯 识别 ) 

3. 在 经 典 编译 器 (如 lcc、GCC 等 ) 中 ， 通 常 ， 并 不 是 借助 关键 字 表 来 实现 关键 字 判 
断 的 ， 而 是 直接 在 词法 分 析 器 的 转换 图 中 加 以 描述 。 实 际 上 ， 这 种 实现 虽然 会 使 得 转换 图 复 
杂 一 些 ， 但 是 它 却 比 本 章 介 绍 的 实现 方法 更 优 。 试 问 这 种 设计 的 优点 是 什么 ? 

4. 在 C 语言 中 ， 单 词 的 长 度 是 有 限制 的 。C89 规定 单词 最 大 长 度 不 超过 509 个 字符 ， 
而 C99 的 最 大 长 度 是 4096。 然 而 ，Pascal 并 没有 明确 的 规定 ， 因 此 ，Neo Pascal 没有 限制 。 
不 过 ， 有 些 商用 Pascal 编译 器 为 了 提高 词法 分 析 的 效率 ， 对 此 有 一 定 限 制 。 如 果 Neo Pascal 
限制 单词 的 最 大 长 度 为 4096， 试 问 应 该 如 何 修改 程序 以 提高 单词 识别 的 效率 呢 ? 


[2 大 师 风 采 一 一 Dennis M. Ritchie 


Dennis M. Ritchie: 美国 计算 机 科学 家 ，UNIX、C 语言 创始 人 之 一 。1941 年 9 月 9 日 
出 生 于 纽约 。 在 哈佛 大 学 获得 物理 学 学 士 学 位 后 ， 又 于 1968 年 获得 应 用 数学 博士 学 位 。 
1967 年 ，Ritchie 加 入 著名 的 贝尔 实验 室 ， 参 与 了 Multics 项 目 。 正 是 Multics 项 目 ， 为 UNIX 
的 产生 打下 了 基础 。 

1969 年 ，Dennis M. Ritchie 与 Ken Thompson、Douglas Mcllroy 设计 与 实现 了 著名 的 
UNIX 操作 系统 。 最 初 UNIX 是 用 汇编 语言 编写 ， 而 其 中 一 些 应 用 是 由 B 语言 和 汇编 语言 混合 
实现 的 。 不 过 ， 由 于 B 语言 在 系统 编程 方面 的 缺陷， 因此 ，Dennis M. Ritchie 与 
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导 三 
辐 、 编译 器 设计 之 路 
ee 


Ken Thompson 对 其 进行 了 完善 ， 并 与 1971 年 共同 设计 实现 了 C 语言 。1973 年 ， 他 们 用 C 语 
言 重 写 了 UNIX。 在 计算 机 科学 史上 ，UNIX 与 C 语言 是 具有 里 程 碑 意义 的 。1977 年 ，Dennis 
M. Ritchie 发 表 了 不 依赖 于 具体 机 器 系统 的 C 编译 器 论文 《可 移植 的 C 语言 编译 程序 》 1978 
年 ，Ritchie 与 B. W. Kernighan 合作 撰写 了 著名 的 《The C Programming Language》 一 书 ， 这 
是 ANSIC 标准 的 基础 。 

Dennis M. Ritchie 与 Ken Thompson 也 因为 UNIX 及 C 语言 的 成 功 而 获得 了 1983 年 


图 灵 奖 . 
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第 3 章 语法 分 析 


The effort of using machines to mimic the human mind has always struck me as rather silly. I 


would rather use them to mimic something better. 


总 程序 设计 语言 的 语法 描述 


3.1.1 上 下 文 无 关 文 法 


种 语言 通常 由 语法 、 语 义 、 语 用 三 个 部 分 组 成 。 其 中 ， 语 法 是 本 章 关 注 的 重点 ， 语 义 

与 语 用 将 在 后 续 章 节 中 阐述 。 语 言 的 语法 指 的 是 构成 语言 句子 的 各 个 符号 之 间 的 组 合 规律 。 
同样 ， 程 序 设计 语言 的 语法 就 是 描述 构成 各 种 语句 的 单词 的 组 合 规律 ， 它 是 判断 程序 合法 性 
的 标准 之 一 ， 但 不 是 唯一 标准 。 读 者 必须 注意 ， 符 合 程序 设计 语言 语法 的 程序 未 必 是 合法 
的 ， 但 不 符合 语法 的 程序 必定 是 非法 的 。 这 主要 是 由 于 程序 既 要 符合 语言 的 语法 ， 又 要 符合 
语言 的 语义 。 

程序 设计 语言 的 语法 体系 与 该 语言 是 否 能 得 到 普及 发 展 有 着 密切 的 联系 。 同 时 ， 也 是 
评价 一 门 语言 的 主要 标准 。 通 常 ， 一 门 程序 设计 语言 是 否 能 得 到 普及 发 展 主要 取决 于 这 几 
个 方面 : 程序 设计 思想 、 应 用 领域 、 复 杂 程 度 、 可 移植 性 、 语 言 实 现 、 经 济 及 其 他 非 语言 
因素 等 。 

(1) 程序 设计 思想 。 实 践 证 明 ， 某 种 激进 的 程序 设计 思想 往往 与 实现 这 种 思想 的 程序 设 
计 语 言 密 不 可 分 。 当 然 ， 那 些 实现 先进 设计 思想 的 程序 设计 语言 也 会 随 着 该 设计 思想 的 流行 
而 获得 广泛 应 用 。 例 如 ，Niklaus Wirth 提出 结构 化 程序 设计 思想 ， 同 时 也 实现 了 Pascal 语 
言 。Pascal 语言 是 其 设计 思想 的 一 种 体现 。 可 以 毫 不 夸张 地 说 ， 完 全 是 在 、WHILE、FOR 
等 语法 结构 的 出 现成 就 了 Pascal、C 语言 风靡 几 十 年 的 神话 。 

(2) 应 用 领域 。 程 序 设 计 语 言 在 其 定义 之 初 就 应 该 明确 其 应 用 领域 。 不 同 的 应 用 领域 对 
于 程序 设计 语言 的 功能 要 求 是 不 尽 相 同 的 。 当 然 ， 应 用 领域 也 影响 了 该 程序 设计 语言 的 普及 
星 度 。 例 如 ，C 语言 的 应 用 领域 是 系统 软件 设计 ， 而 在 数据 库 相 关 设 计 中 就 很 少 使 用 C 语 
言 。HTML 语言 的 应 用 领域 是 Web 设计 ， 它 就 不 具备 传统 结构 化 程序 设计 语言 的 正 、 
WHILE 等 语句 。 脱 离 具 体 的 应 用 领域 评价 程序 设计 语言 是 不 科学 的 。 不 过 ， 优 秀 的 程序 设 
计 语 言 往往 能 在 相关 领域 内 脱颖而出 。 
(3) 复杂 程度 。 与 其 他 方面 的 因素 相 比 ， 程 序 设计 语言 的 复杂 程度 似乎 显得 更 为 重要 。 
使 用 者 总 是 偏爱 那些 简单 易学 的 语言 。 简 单 易学 的 程序 设计 语言 可 以 一 定 程度 上 弥补 功能 或 
其 他 方面 的 不 足 ，BASIC 语言 的 成 功 就 是 最 好 的 例证 。 无 论 是 程序 设计 思想 还 是 功能 实现 ， 
BASIC 语言 都 确实 存在 一 定 不 足 之 处 ， 但 是 它 的 简单 易学 却 足以 弥补 这 一 切 。 实 际 上 ， 现 存 
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的 大 多 数 语言 都 是 由 于 其 简 六 


能 强大 的 复杂 语言 和 一 门 功能 相对 条 
种 弥补 是 有 一 个 度 的 。 通 和 常 ， 功 能 强大 与 简 生 
不 可 取 。 语 言 设 计 者 必须 准确 把 握 这 个 度 ， 否 则 可 能 适得其反 。 
的 争论 是 比较 激烈 的 。 在 软件 
是 否 能 普及 发 展 。 在 这 个 问 


语言 的 简单 易学 3 


(4) 可 移植 性 。 在 当今 程序 设计 语言 领域 ， 关 于 可 移植 性 


en 
语言 是 否 


复 用 被 尤为 重视 之 际 ， 一 门 
题 上 ，C++ 与 Java 之 争 的 结果 似乎 


易学 而 得 以 从 当年 的 “乱世 ”中 传承 至 今 。 
了 弱 的 简单 语言 之 间 ， 人 们 往往 更 乐意 选择 后 者 。 当 然 ， 这 
易学 是 矛盾 的 。 以 失去 功能 为 代价 ， 一 味 地 追求 


实践 证 明 ， 在 一 门 功 
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能 跨 平台 使 用 直接 决定 了 其 
已 经 证 明了 一 切 。 
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(5) 语言 实现 。Fortran 语言 的 成 功 可 能 就 是 归功 于 其 优秀 的 编译 器 实现 。 早 期 Fortran 


编译 器 的 设计 宗旨 误 
金钱 ， 虽 然 以 牺牲 一 定 的 


了 这 一 目标 。 正 是 出 众 的 效率 才 使 得 功能 、 设 计 ; 
局 限于 编译 器 ， 还 包括 一 些 环境 文 持 工 


至 今 。 当 然 ， 语 言 实现 不 
等 ) 
于 Jo 


(6) 经 济 及 其 他 非 语言 因 素 。 经 济 及 其 人 
重要 因素 。 例 如 ， 语 言 支持 、 惯 性 发 展 等 。 


及 的 
产品 总 会 比 收费 的 产品 更 容易 得 到 


C、Java 等 都 是 由 于 免费 才 让 更 多 的 


是 生成 特别 高 效 的 代码 。Fortran 语言 的 开发 者 为 此 投入 了 大 量 的 时 间 与 


看 言 功能 〈 例 如 ，Fortran 不 支持 递归 ) 为 代价 ， 但 是 他 们 最 终 实 现 


耻 非 语言 因素 也 是 决定 
经 济 因素 是 比较 重要 的 ， 


使 用 者 的 


Windows 一 争 高 下 ， 一 个 重要 原 
个 因 


支持 有 关 。Ada 语言 的 成 功 就 是 因 


素 。 程 序 设计 语言 的 设计 与 实现 是 一 项 费时 耗 力 的 长 期 工程 ， 
持 〈 人 力 、 财 力 )， 可 能 是 无 法 完成 的 。 例 如 ，COBOL 和 PLX 


口 


为 它 出 生 在 美国 国防 部 。 今 天 ， 评 论 


可 


展 也 是 人 们 选择 语言 时 考虑 的 因 


J 能 为 时 过 早 ， 但 是 C#、Java 的 发 展 与 微软 、Sun 的 支持 是 分 不 开 的 。 了 
素 之 一 。 先 入 为 主 的 
某 些 现存 语言 基础 上 扩展 而 得 的 语言 ， 而 不 喜欢 选择 一 些 全 新 定义 的 语言 。 尤 


田 相 


ND 


思想 都 不 是 特别 优秀 的 Fortran 
(如 IDE、 项 目 管理 工具 


门 程序 设计 语言 能 
实践 证 明 ， 人 免费 的 
青睐 。 编 译 器 、 操 作 系统 等 都 是 如 此 ，Pascal、 
程序 员 、 专 家 认识 了 它们 。Linux 能 
因 也 是 免费 。 另 外 ， 强 有 力 的 语言 支持 是 保证 语言 发 展 的 一 
如 果 没 有 强 有 力 的 后 盾 文 
的 生存 很 大 程度 上 与 IBM 的 
C#、 Java 
种 者， 语言 的 惯性 发 
广泛 存在 ， 人 们 通常 更 喜欢 选择 在 


语言 能 传承 


不 小 
日 


与 操作 系统 霸主 


三 | 
古 否 


成 功 


语言 体系 初 现 端倪 之 际 ， 人 们 更 希望 选择 自己 熟悉 的 语言 及 其 扩展 形式 。 
以 上 各 个 因素 可 能 贯穿 了 整个 程序 设计 语言 及 其 编译 器 设计 的 过 程 。 


素 与 程序 设计 语言 的 语法 有 着 密切 


它 是 评价 一 门 程序 设计 语言 的 重要 因素 之 一 。 程 序 设计 语言 的 语法 定义 通常 包括 


建 模 、 描 述 。 

建 模 就 是 构造 
及 许多 程序 设计 语言 的 相关 理论 。 
“ 非 ”“ 异 或 ”四 个 逻辑 运算 符 ， 
杂 罗 各 关系 ， 但 是 ， 无 论 缺 少 哪 一 


门 程序 设计 语言 的 语法 体系 ， 这 个 过 程 并 非 想象 
的 例子 : C 语言 只 定义 了 


的 联系 。 


在 今天 几 大 


~ 


其 中 ， 前 面 三 个 因 
因此 ， 程 序 设 计 语 言 的 语法 定义 是 至 关 重要 的 ， 


两 个 过 程 : 


FP 的 那样 简单 ， 它 涉 


笔者 举 个 简 
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然而 ， 这 四 个 逻辑 运算 符 的 不 同 组 合 却 可 以 描述 任何 复 


个 逻辑 运算 符 都 无 法 实现 这 一 描述 功能 。 


能 借 


助 较 少 的 语言 结构 实现 更 多 的 功能 ， 保 证 语言 结构 
序 设计 语言 的 正 交 性 。 然 而 ， 在 建 模 过 程 中 ， 保 i 


容易 的 ， 需 要 程序 设计 语言 相关 理 


于 Neo Pascal 语言 只 是 


展 ， 所 以 3 
畴 ， 故 不 再 资 述 。 


不 存在 完整 的 建 模 过 程 。 程 序 设计 语言 


论 的 支持 。 册 


下 程序 设计 语言 的 正 交 性 


重 


描述 即 语法 的 形式 描述 。 
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点 就 是 讨论 如 何 描述 


这 使 得 C 语言 


民 可 能 不 重复 ， 这 种 特性 被 称 为 程 


时 并 不 是 非常 
Pascal 语言 的 扩 


的 定义 与 设计 也 不 是 编译 技术 讨论 的 范 


程序 设计 语言 语法 模型 。 实 际 上 ， 语 
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言语 法 的 描述 是 一 门 独立 的 学 科 ， 即 形式 语言 学 。 形 式 语言 是 一 种 元 语言 的 形式 ， 是 一 套 形 
式 化 描述 语言 (主要 指 的 就 是 语言 的 语法 ) 的 方法 。 读 者 只 要 将 形式 语言 理解 为 一 种 描述 语 
言 的 语言 即 可 。 关 于 语言 语义 的 描述 并 不 是 形式 语言 的 讨论 范畴 ， 将 在 第 4~6 章 中 说 明 。 
形式 语言 在 自然 语言 研究 中 起 步 ， 却 在 计算 机 科学 中 得 到 了 应 用 ， 如 编译 技术 、 计 算 复 杂 
性 、 通 信 技 术 、 图 像 处 理 、 人 工 智 能 等 领域 。 其 中 ， 最 主要 被 应 用 于 编译 技术 中 。 编 译 技术 
是 一 门 与 语言 有 关 的 学 科 ， 所 以 形式 语言 自然 就 成 为 编译 技术 讨论 的 范畴 了 。 在 编译 技术 
中 ， 形 式 语言 主要 用 于 描述 程序 设计 语言 的 语法 。 下 面 ， 就 谈 谈 形式 语言 与 程序 设计 语言 语 
法 之 间 的 联系 。 
虽然 人 们 每 时 每 刻 都 离 不 开 语言 ， 但 是 ， 在 日 常生 活 或 工作 中 ， 语 言 的 语法 往往 为 人 们 
所 忽视 。 读 者 可 以 想象 一 下 ， 在 学 习 汉 语 时 ， 是 不 是 从 汉语 语法 开始 的 呢 ?” 显 然 ， 答 案 是 否 
定 的 。 语 言 学 家 研究 表明 ， 人 们 学 习 与 掌握 一 门 新 语言 的 最 主要 途径 就 是 实践 经 验 。 也 就 是 
说 ， 人 们 是 通过 大 量 实践 运用 一 门 语言 ， 以 达到 熟 能 生 巧 的 境界 。 学 习 程序 设计 语言 同样 如 
此 ， 也 是 通过 大 量 编程 实践 最 终 才 能 掌握 一 门 程序 设计 语言 的 。 如 果 没 有 真正 接触 到 语言 的 
形式 描述 ， 即 使 能 熟练 应 用 某 些 程序 设计 语言 ， 那 也 只 是 处 于 对 语言 的 感性 认识 阶段 。 包 括 
大 多 数 程序 设计 书籍 在 内 的 编程 方面 的 资料 都 是 使 用 自然 语言 形式 描述 程序 设计 语言 语法 及 
其 语义 的 。 正 如 读者 所 知 的 ， 自 然 语言 是 可 能 存在 不 同 程度 的 二 义 性 的 。 显 然 ， 这 种 模糊 
的 、 不 确定 的 方式 是 无 法 精确 定义 一 门 程序 设计 语言 的 。 正 因 如 此 ， 在 20 世纪 50 年 代 ， 美 
国 的 语言 学 家 Noam Chomsky 提出 了 “转换 一 生成 语法 ”的 概念 ， 深 入 前 述 了 语法 结构 的 相 
关 理论 ， 这 就 是 “形式 语言 学 ”原型 ， 它 是 具有 里 程 碑 意义 的 。 
编译 器 设计 是 一 门 与 程序 设计 语言 有 着 密切 联系 的 学 科 ， 因 此 ， 仅 仅 从 感性 的 角度 认识 
一 门 程序 设计 语言 是 不 够 的 。 当 然 ， 必 须 设计 一 种 准确 无 误 地 描述 程序 设计 语言 的 语法 结 
构 ， 这 就 是 将 形式 语言 应 用 于 编译 技术 的 初衷 。 通 常 ， 将 这 种 严谨 、 简 洁 、 易 读 的 形式 规则 
述 的 语言 结构 模型 称 为 文法 (grammar)。 
最 著名 的 文法 描述 形式 是 由 Backus 在 定义 Algol 60 语言 时 提出 的 Backus-Naur 范式 
(Backus-Naur Form， 简 写 为 “BNF”) 及 其 扩展 形式 (简写 为 “EBNF”)。 实 际 上 ，EBNF 与 
BNF 还 是 存在 细微 差别 的 ， 而 且 EBNF 应 用 比 BNF 更 为 广泛 。 不 过 ， 由 于 BNF 太 著 名 ， 人 
们 并 不 严格 区 别 EBNF 与 BNF， 统 称 为 BNF。 有 些 书籍 甚至 已 不 再 严格 区 别 BNF 与 文法 的 
概念 ， 本 书后 续 提 及 文法 指 的 就 是 文法 的 BNF 形式 。 当 然 ， 除 了 BNF 之 外 ， 还 有 一 些 其 他 
的 文法 描述 形式 。 其 中 ， 较 为 常见 的 就 是 语法 图 ， 第 1 章 中 描述 Pascal 语法 的 图 形 工具 就 是 
语法 图 。BNF、 语 法 图 都 只 是 文法 的 一 种 描述 形式 而 已 ， 但 与 自然 语言 描述 方式 相 比 ， 它 们 
的 优点 就 是 不 存在 二 义 性 。 然 而 ，BNF 之 所 以 更 为 著名 ， 就 是 由 于 它 能 以 一 种 简洁 、 灵 活 的 
方式 描述 语言 的 语法 。 下 面 ， 笔 者 给 出 一 个 BNF 的 实例 。 
例 3-1 自然 语言 文法 实例 。 


ll 


二 


【文法 3-1】 
儿子 一 圭 族 静 施 乱 放 六 分 
于 三 一 你 
王 胡 一 我 
萌 十 一 是 
售 三 疡 分 一 ”外 一 佐 厂 
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B ER i 
罗 、 编译 器 设计 之 路 
ee 


盒 三 部分 一 ”入 三 
钝 三 一 ”可爱 的 
钝 请 一 美丽 的 
从 一 一 ”帅气 的 
僵 三 一 ”男孩 
全 雄 一 ”女孩 


文法 3-1 是 一 个 简化 的 自然 语言 文法 。 通 常 ， 将 其 中 的 每 一 行 称 为 一 个 产生 式 ， 而 一 个 
完整 的 文法 可 以 由 一 个 或 多 个 产生 式 组 成 。 每 个 产生 式 中 有 且 只 有 一 个 箭头 《有 时 ， 亦 可 记 
作 “::”， 表 示 “ 定 义 为 ?。 箭 头 将 一 个 产生 式 分 成 左右 两 个 部 分 ， 而 整个 产生 式 即 表 示 将 其 
左 部 定义 为 其 右 部 。 读 者 不 难 发 现 ， 产 生 式 的 右 部 可 以 由 一 个 或 多 个 符号 〈 或 称 为 项 ) 组 
成 。 其 中 ， 有 些 符号 是 整个 文法 中 某 些 产生 式 的 左 部 〈 为 了 便于 讲解 ， 笔 者 将 这 些 符 号 使 用 
斜体 表示 )， 有 些 符号 则 不 是 。 在 BNF 中 ， 将 斜体 符号 称 为 非 终结 符 ， 也 就 是 说 ， 它 可 以 用 
其 他 符号 串 来 定义 。 实 际 上 ， 非 终结 符 就 是 一 个 语法 变量 ， 是 符号 的 有 序 集合 。 而 其 他 非 斜 
体 符号 则 称 为 终结 符 ， 它 是 语言 的 最 基本 符号 ， 即 不 可 再 分 割 的 原子 符号 。 

文法 3-1 描述 了 一 个 简化 的 自然 语言 模型 ， 也 就 是 说 文法 3-1 完全 可 以 验证 某 个 句子 是 
否 属于 该 语言 模型 。 下 面 ， 尝 试验 证 “你 是 可 爱 的 男孩 ”是 否 为 合法 的 句子 。 实 际 上 ， 如 果 
可 以 运用 上 述 产 生 式 推导 出 这 个 句子 (就 是 从 “句子 ”出 发 ， 反 复 把 上 述 规则 中 “一 ”左边 
的 符号 蔡 换 成 右边 的 符号 的 过 程 。 关 于 推导 的 详细 内 容 可 参见 3.1.2 节 。)， 则 表明 这 个 句子 
符合 该 文法 的 描述 ， 即 为 合法 的 句子 ， 否 则 为 不 合法 的 句子 。 事 实 上 ,“ 你 是 可 爱 的 男孩 ” 
是 一 个 合法 的 句子 ， 推 导 过 程 如 下 : 


多 天 > 斑 碎 朝 十 售 厅 部 分 


一 你 更 育 合 三 部 分 


=> 你 是 候 瑶 售 三 
=> 你 是 可 爱 的 佑 三 
=> 你 是 可 爱 的 男孩 


从 “句子 ”这 个 非 终 结 符 出 发 (通常 ， 称 为 文法 开始 符 )， 经 过 了 多 次 推导 ， 最 终 得 到 
了 “你 是 可 爱 的 男孩 ”这 个 句子 ， 表 明和 它 是 合法 的 句子 。 回 头 再 来 看 看 到 底 什 么 是 推导 ? 
次 推导 就 是 将 非 终结 符 蔡 换 为 合适 的 产生 式 右 部 符号 串 的 过 程 ， 可 以 用 “=>” 表 示 推 导 操 
作 。 从 文法 开始 符 出 发 ， 可 以 通过 推导 得 到 的 句子 集合 就 是 这 个 文法 所 描述 的 语言 。 例 如 ， 
“我 是 帅气 的 男孩 人 “你 是 美丽 的 女孩 ”都 是 文法 3-1 的 合法 句子 ， 而 “我 是 男孩 帅气 的 ”、 
“我 帅气 的 男孩 是 ”都 不 是 文法 3-1 的 合法 句子 。 读 者 不 难 发 现 ， 文 法 描述 的 语言 都 是 终结 
符 的 集合 ， 不 包含 任何 非 终结 符 。 对 于 任何 包含 非 终结 符 的 符号 串 都 只 是 推导 的 一 个 步骤 ， 
并 不 是 文法 描述 的 句子 。 在 形式 语言 学 中 ， 将 包含 非 终结 符 的 符号 串 称 为 名 型 ， 将 不 包含 非 
终结 符 的 符号 串 称 为 句子 。 

值得 注意 的 是 ， 文 法 3-1 是 一 个 简化 的 自然 语言 文法 ， 因 此 ， 它 所 描述 的 语言 并 不 是 汉 
语 的 全 集 。 实 际 上 ， 完 整 的 自然 语言 文法 是 非常 复杂 的 。 其 形式 化 描述 是 自然 语言 理解 领域 
的 重要 研究 课题 ， 这 里 不 作 讨论 。 程 序 设 计 语言 的 语法 比 自然 语言 简单 得 多 ， 使 用 文法 描述 
程序 设计 语言 是 完全 可 行 的 。 
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式 语言 理论 的 开创 者 Chomsky 按 文法 描述 能 力 将 文法 分 为 四 种 类 型 ， 由 高 到 低 分 别 
为 : 0 型 (短语 文法 )、1 型 (上下文 相 关 文 法 )、2 型 (上 下 文 无 关 文法 )、3 型 (正规 文 
法 )。 实 际 上 ， 大 多 数 程序 设计 语言 的 文法 都 是 上 下 文 无 关 文法 ， 文 法 3-1 也 是 一 个 上 下 文 
无 关 文法 。 因 此 ， 上 下 文 无 关 文法 是 编译 技术 讨论 的 重点 。 至 于 其 他 类 型 的 文法 ， 读 者 可 参 
考 相关 书籍 ， 这 里 不 再 闭 述 。 

上 下 文 无 关 文法 (context-free grammar) 由 终结 符 、 非 终结 符 、 文 法 开始 符 和 产生 式 组 


(1) 终结 符 〈terminal): 语言 的 最 基本 符号 ， 即 不 可 再 分 割 的 原子 符号 。 在 程序 设计 语 
言 中 ， 终 结 符 必定 是 词法 分 析 所 得 到 的 单词 。 例 如 ， 关 键 字 这 then 等 都 是 终结 符 。 

(2) 非 终结 符 (nonterminal): 语法 变量 ， 它 可 以 定义 为 一 个 符号 串 〈( 由 终结 符 和 非 终 
结 符 组 成 的 符号 串 )。 例 如 ， 文 法 3-1 的 “宾语 ”“ 主 语 ” 等 都 是 非 终 结 符 。 

(3) 文法 开始 符 (start symbol): 在 一 个 完整 的 文法 中 ， 有 且 仅 有 一 个 非 终 结 符 可 以 被 
指定 为 文法 开始 符 。 

(4) 产生 式 (production ); 是 一 种 定义 语法 规则 的 形式 。 产 生 式 的 形式 : 非 终结 符 一 符 
号 串 。 

通常 ， 有 些 书 把 上 下 文 无 关 文 法 表示 为 一 个 四 元 组 : (VrVuwS, P)， 其 中 V1 为 终结 符 和 
合 ，Va 为 非 终结 符 集 合 ，S (CSEVa) 为 文法 开始 符 ，P 为 产生 式 集 合 。 

为 了 便于 描述 ， 除 特殊 说 明 外 ， 本 书 的 文法 将 采用 如 下 约定 : 

非 终 结 符 用 斜体 字 表 示 。 

终结 符 用 正体 字 表 示 。 

若 无 特 殊 说 明 ， 文 法 的 第 一 个 产生 式 的 左 部 非 终结 符 就 是 文法 的 开始 符 。 

可 以 使 用 小 写 希腊 字母 表示 文法 符号 串 。 

如 果 存 在 如 下 文法 : 


A 


4 一 oo、 A oa、 A ar 
则 可 以 简化 写成 如 下 形式 : 
4 一 ou| oa| ea | Qk 


我 们 将 a1、Q2、.… 、ou 称 为 A 的 候选 式 。 
例 3-2 使 用 上 述 简 写 约定 ， 文 法 3-1 可 以 简写 为 : 


【文法 3-2】 
妃子 一 王 胡 声 证 售 订 部 分 
斑 胡 一 你 | 我 
萌 十 一 是 
售 三 记分 一 定语 宾语 | 宾语 
候 三 一 可 爱 的 | 美丽 的 | 帅气 的 
佐证 一 男孩 | 女孩 


语言 的 文法 是 研究 程序 设计 语言 的 基础 ， 也 是 编译 器 前 端的 重要 理论 基础 之 一 。 读 者 应 
该 熟悉 文法 描述 形式 ， 这 对 于 学 习 编 译 器 与 程序 设计 语言 设计 是 至 关 重 要 的 。 编 译 器 设计 者 
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编译 器 设计 之 路 


可 以 不 关心 程序 设计 语言 的 建 模 过 程 ， 但 必 


下 面 ， 笔 者 借助 一 


个 实例 来 讨论 如 何 ; 


例 3-3 算术 表达 式 的 文法 。 


【文法 3-3】 


注意 : 


var 表示 变量 ，const 表示 常量 ， 


五 op7 了 | 了 
Top2F|F 
2 (E)I-FI 


var | const 
— 十 | - 
= * |/ 


须 关 心 建 模 的 结果 ， 即 语言 模型 的 形式 化 描述 。 


它们 都 是 终结 符 


运用 文法 描述 程序 设计 语言 的 算术 表达 式 。 


在 初学 一 门 程序 设计 语言 时 ， 最 复杂 的 i 


种 运算 符 及 其 
级 )、 运 算 符 众多 ， 


运算 符 、 双 目 运算 符 ， 
必 很 多 ， 但 理解 文法 所 


15 个 优先 级 分 类 可 能 
而 且 还 涉及 类 
表达 式 文法 ， 但 是 它 揭 示 了 算术 表达 式 乃 至 表达 式 的 核心 。 
同时 ， 还 涉及 运算 符 的 优先 级 。 eh Oe 


合法 性 的 详细 推导 过 程 


E 


从 文法 开 
3.1.2 ”推导 
前 面 通过 实例 简单 


台 符 EE 经 过 21 步 ] 


推导 的 定义 出 发 ， 深 入 研究 推导 及 其 
思想 是 把 产生 式 的 左 部 非 终 结 
语言 语法 分 析 的 核心 方法 之 一 

te 志 P) 的 规则 (或 i 
串 v,w 满 足 : 


过 程 ， 其 核心 


， 若 有 符号 


任意 符号 
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IF: 


=>E op1T 
=>Top2F op1T 
=>J op2 F op1T 
=>3* FoplT 
=>3*5 0oD7 了 
=>3*5+F 
=>3*5+(Eopl1T7) 
=>3*5+(Fopl1T7) 
=>3*5+(1op17) 
=>3*5+(1-F) 
=>3*5+(1-1i) 


看 法 机 制 可 色 


o 


述 的 语法 规则 是 非常 必要 的 。 运 


与 编译 器 设计 的 联系 。 推 导 


介绍 了 推导 的 大 致 过 程 ， 但 并 没有 明确 阐述 推 
导 是 
符 蔡 换 为 右 部 的 符号 串 


。 下 面 ， 给 出 


=>T OoD7 T 

=>F op2F op1T 
=>3 op2 Fop1 了 
=>3*Jop1T 

= 一 >3 关 93 十 了 
=>3*5+(E) 
=>3*5+(Topl1T) 
=>3*5+ 
=>3*5+(1-7) 
3 1= 1) 


型 系统 等 繁复 的 语义 处 理 。 虽 然 文 法 3-3 是 
文法 3-3 中 包含 了 括号 、 单 目 


E 就 是 表达 式 了 。 就 C 语言 而 言 ，34 
以 让 初学 者 琢磨 许久 。 表 达 式 不 但 文法 复杂 (优先 


一 个 简化 的 算 


| 文法 3-3 验证 表达 式 * 3*5+(1 -i) 77 


(7op77) 


推导 可 以 得 到 表达 式 3*5+(1-D， 故 此 表达 式 是 合法 的 。 


的 定义 。 本 小 节 将 从 


用 


推导 的 公理 化 定义 : 
说 是 P 中 的 一 


v=YQ.6, w=yY 了 6 


导 
于 


描述 文法 定义 语言 的 


。 推 导 的 方法 是 程序 设计 


条 产生 式 )，y 和 6 是 (VU Vt) 中 的 


则 说 v〔 应 用 规则 a 一 B〉 直 接 产 4 


V=>Wo 


示 


用 文法 验证 用 户 输入 
工作 呢 ? 这 正 是 本 书 
的 ， 这 种 随机 性 较 大 的 工作 流程 是 

过 程 ， 得 到 其 工作 模型 ， 才 能 通过 算法 最 终 实 现 。 读 者 仔细 分 析 手 了 


E w， 或 说 w 是 v 的 直接 推导 (direct derivation)， 记 作 


如 果 Q1=>Q.2=>…=>Qn， 则 称 


“一 步 推导 ”， 
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E 导 (derivation )。 通 常 ， 可 以 用 “=>” 
用 “ 灶 > ”表示 “ 零 步 或 多 步 推 时”， 用 “二 >” 表 示 “ 一 步 或 多 步 推导 ”。 
在 不 关心 推导 细节 的 情况 下 ， 可 以 将 例 3-3 的 推导 过 程 简写 为 E 尖 >3 *5+(1 -i)。 


对 于 文法 开始 符号 为 $ 的 文法 G， 如 果 S 兰 >a， 则 称 Q 为 G 的 句 型 (sentential form )， 


其 中 a 可 能 包含 非 终结 符 。 不 含 非 终结 


~ 


关于 推导 的 过 程 与 实例 ， 笔 者 认为 没有 必要 再 次 阐述 了 ， 请 
的 程序 ， 那 么 ， 如 何 设计 
研究 推导 的 目的 。 目 前 ， 手 


符 的 句 型 称 为 句子 (sentence)。 


读者 参见 例 3-3。 推 导 能 运 
算 机 自动 完成 推导 验证 程序 的 


符 ， 
以 参考 例 3-4 的 推导 过 程 ， 例 3-3 的 第 二 步 选择 对 非 
推导 中 选择 蔡 换 非 终结 符 了 T。 两 个 扒 


推导 通常 都 存在 两 个 选择 : 
(1) 选择 哪个 非 终 结 符 被 替换 。 

(2) 选择 哪个 候选 式 蔡 换 该 非 终结 
以 例 3-3 第 二 步 推导 为 例 ， 第 二 步 
opl1 T”。 在 符号 串 “E opl T” 中 存在 三 个 非 
换 一 个 非 终结 符 ， 故 必须 只 选择 蔡 换 其 中 一 个 非 终 结 符 。 实 际 上 ， 无 论 选择 替换 哪个 非 终结 
最 终 推 导 得 到 的 句子 都 是 一 样 的 。 笔 者 在 此 不 作怪 


:很 难 通过 算法 实 3 


个 人 经 验 完 成 
J。 因 此， 有 必要 深入 分 析 习 


手工 推导 的 
[推导 过 程 ， 不 难 发 现 每 


推导 过 程 是 从 符号 串 “E opl T” 扒 


符号 串 “T 
尼 只 能 替 


符 ， 即 下 、op1、T。 由 于 每 一 步 


本 从 用 


前 过 实例 说 明 。 读 者 可 
推导 ， 而 例 3-4 在 第 二 步 


时 过 程 完全 不 同 » 但 是 其 最 终 推 l 


到 的 句子 是 相同 


的 。 当 然 ， 读 者 也 可 以 作 其 他 尝试 ， 可 以 发 现 最 终结 果 是 始终 不 变 的。 实践 证 明 ， 选 择 哪 个 


非 终结 符 被 蔡 换 并 不 影响 最 终 的 推导 结果 。 那 么 ， 例 3-3 中 选择 对 非 终 
终结 


二 一口 


消除 这 类 情况 。 如 果 某 些 文 法 经 过 变换 后 仍 存在 
则 说 明文 法 本 身 存在 上 收 义 ， 通 常 称 为 二 义 性 。 


这 里 先 不 作 深究 。 总 之 ， 读 者 必须 明确 一 点 ， 就 是 对 于 文法 的 任何 


已 
村 和 何 


和 守 忆 进行 推导 ， 非 
符 卫 的 候选 式 有 两 个 ， 即 E op1 T 和 T。 此 时 ， 面 临 选择 哪个 候选 式 蔡 换 非 终结 符 E 的 
问题 。 注 意 ， 在 推导 过 程 中 ， 
到 给 定 句 子 ， 其 余 的 都 是 错误 的 。 当 然 ， 某 上 
式 中 存在 两 个 或 以 上 的 候选 式 能 够 正确 推导 


通常 某 一 步 推导 所 能 选择 的 候选 式 中 往往 只 有 一 个 可 以 正确 推 
山茶 一 步 推导 所 能 选择 的 候选 


必须 通过 变换 文法 的 方法 


到 给 定 句子 的 情况 ， 


E 导 能 选择 超过 一 个 的 
者 将 在 3.1.3 节 中 讨论 文法 的 二 义 性 问题 ， 


E 确 候选 式 ， 


个 合法 句子 而 言 ， 文 法 


必须 保证 每 一 步 推导 过 程 中 有 且 仪 有 一 个 候选 式 能 够 最 终 正确 推导 得 到 该 句子 。 因 此 ， 选 择 


哪个 候选 式 蔡 换 非 终结 符 最 终 得 到 的 结果 是 不 同 的 。 要 想 正 确 推 导 
过 程 中 ， 都 必须 选择 那个 唯一 正确 


子 


适 


的 候选 式 进行 深入 


唯一 正确 的 选择 。 读 者 可 以 尝试 选择 候选 式 T 蔡 换 非 终 台 
出 给 定 表 达 式 。 
推导 过 程 可 以 判定 给 定 句子 是 否 符合 又 
也 就 形成 了 。 前 面 ， 已 经 分 析 了 推 


由 于 候选 式 的 选择 可 能 直接 决定 了 是 
候选 式 可 能 会 使 推导 过 程 回 湖 。 例 3-3 中 选择 了 E opl T 候选 式 蔡 换 非 终 


za 


符 EE， 这 是 


到 句子 ， 在 每 一 步 推导 
E 导 ， 否 则 ， 无 法 推导 得 到 所 需 的 句 
正确 推导 出 给 定 句子 ， 那 么 ， 如 果 选 择 了 不 合 


符 了 ， 经 过 nm 步 推导 仍然 无 法 推导 


法 。 那 么 ， 模 拟 推导 过 程 实现 语法 分 析 器 的 想法 
gg 过程， 也 发 现 了 推导 过 程 中 的 核心 难点 ， 即 两 个 选 
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咏 ”编译 器 设计 之 路 
‘Be 
择 。 构 造 基于 推导 的 语法 分 析 器 就 必须 解决 两 个 选择 的 问题 ， 即 非 终结 符 的 选择 与 候选 式 的 
选择 。 由 于 非 终结 符 的 选择 并 不 会 影响 推导 的 结果 ， 所 以 选择 非 终 结 符 的 问题 就 比较 容易 
了 。 可 以 约定 每 一 步 推导 都 选择 蔡 换 最 左边 或 者 最 右边 的 非 终 结 符 ， 通 常 ， 这 是 最 简单 的 选 
择 方案 。 习 惯 上 ， 将 每 次 都 选择 替换 最 左边 非 终结 符 的 推导 过 程 称 为 最 左 推导 (leftmost 
derivation)， 例 3-3 的 推导 过 程 就 是 最 左 推导 。 而 将 每 次 都 选择 替换 最 右边 非 终 结 符 的 推导 
过 程 称 为 最 右 推导 (rightmost derivation)。 为 了 对 句子 进行 确定 性 分 析 ， 编 译 技术 只 考虑 最 
左 推导 、 最 右 推导 。 至 于 候选 式 的 选择 就 比较 复杂 了 ， 笔 者 将 在 3.2 节 中 详细 讲述 。 

例 3-4 最 右 推导 实例 。 使 用 文法 3-3 验证 表达 式 “3*5+(1-D” 是 否 合法 ? 


E 一 > 已 oOD7 了 =>EoplF 
=> Eopl (FE) => Eopl(EoplT) 
=>Eopl (EoplF) => Eopl (下 op17) 
=> Eopl (Eopl1) =>Eopl(E-i) 
=> Eopl(T-1i) => Eopl(F-i) 
=>Eopl(I-i) =>Eopl(1-i) 
=>E+(1-i) =>T+(1-i) 
=>Top2F+(1-1i) => Top21+(1-1) 
=>Top25+(1-—i) =>T*5+(1-i) 
=>F*5+(1—1i) =>7*#xS+(1 一 站 
=>3*5+(1-i) 


3.1.3 语法 树 


通常 ， 推 导 过 程 是 研究 语法 分 析 过 程 的 重要 依据 。 为 了 便于 描述 ， 可 以 使 用 一 些 图 形 化 
方式 描述 推导 过 程 。 其 中 ， 语 法 树 (syntax tree) 是 最 重要 的 方式 之 一 。 它 是 推导 的 图 形 描 
述 形式 ， 有 助 于 理解 一 个 句子 语法 结构 的 层次 ， 简 称 语法 层次 。 语 法 层次 这 个 概念 在 有 些 书 
籍 上 被 替换 成 了 优先 级 ， 确 实 如 此 ， 在 表达 式 文法 中 的 语法 层次 就 是 运算 符 的 优先 级 。 但 
是 ， 由 于 作为 一 门 实际 程序 设计 语言 的 文法 不 仅 包 含 了 表达 式 ， 还 包含 了 许多 其 他 的 语法 结 
构 ， 这 些 语法 结构 之 间 是 可 能 存在 一 定 的 层次 关系 的 ， 故 笔者 认为 语法 层次 的 说 法 比 优先 级 
更 为 精准 。 

与 数据 结构 课程 中 的 树 结构 类 似 ， 语 法 树 也 是 一 棵 根 在 上 、 枝 叶 在 下 的 倒 长 树 ， 语 法 
树 的 根 结 点 是 文法 的 开始 符号 。 随 着 推导 的 展开 ， 当 某 个 非 终 结 符 被 它 的 某 个 候选 式 蔡 换 
时 ， 将 候选 式 的 所 有 符号 以 此 非 终结 符 的 子 结 点 形式 表示 。 在 构建 语法 树 的 过 程 中 的 任何 
时 刻 ， 将 所 有 的 叶 结 点 自 左 至 右 排列 起 来 就 表示 此 文法 的 一 个 句 型 。 当 推导 过 程 完成 后 ， 
将 所 有 的 叶 结 点 自 左 至 右 排 列 起 来 就 表示 此 文法 的 一 个 句子 。 

例 3-5 用 语法 树 描述 例 3-4 的 最 右 推导 过 程 。 

构造 语法 树 步骤 : 

1) 文法 开始 符 为 E， 将 卫 构造 为 语法 树 的 根 。 

2) 第 一 步 推导 将 刁 蔡 换 为 候选 式 Eopl T， 将 这 三 个 符号 作为 EE 的 子 结 点 。 

3) 第 二 步 推导 将 T 蔡 换 为 候选 式 E， 将 符号 FE 作为 工 的 子 结 点 。 
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4) 第 三 步 推 


导 将 
5) 依次 按照 每 


蔡 换 为 候选 式 (E)， 将 这 三 个 符号 作为 


E opl T 
T cb 


F I E ' 
| | | 
3 E 


ja 


图 3-1 3*5S+(1- 的 语法 树 


F 
步 推导 构造 语法 树 〈 如 图 3-1 所 示 )， 直 至 结束 。 


F 的 子 结 点 。 


| 


一 


本 


6) 最 终 ， 语 法 树 所 有 叶 结 点 自 左 至 右 排列 就 是 3*5+(1-i)， 表 明 3*S+(1-D 是 文法 的 


句子 。 
详细 的 构造 过 程 如 图 3-2 所 示 。 


pe 


E opl i op1 J 


F 


图 3-2 构造 语法 树 示 意图 


opl 


同样 ， 读 者 可 以 尝试 依据 例 3-3 的 最 左 推导 过 程 构造 语法 树 ， 一 定 会 发 现 得 到 的 语法 树 
与 图 3-1 完全 相同 。 语 法 树 可 以 表示 一 个 句 型 或 句子 的 种 种 可 能 的 不 同 推导 过 程 ， 当 然 包括 
最 左 ( 最 右 ) 推导 。 语 法 树 的 步 步 成 长 和 推导 的 步 步 展 开 之 间 是 完全 一 致 的 。 

语法 树 不 但 描述 了 推导 过 程 ， 还 说 明了 句子 的 语法 层次 ， 这 对 于 理解 句子 的 语义 是 至 关 


重要 的 。 下 面 ， 笔 者 对 图 3-1 的 语法 树 作 深 入 讨论 。 读 者 不 难 发 现 语法 树 的 叶子 分 布 在 树 的 


不 同 层次 上 。 实 际 上 ， 深 度 越 深 的 叶子 的 语法 层次 就 越 高 ， 这 是 


什么 原因 呢 ? 这 与 语法 树 的 
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B ER i 
辐 。 编译 器 设计 之 路 
[ 


中 ， 根 据 语法 


级 ) 完全 符合 运算 习惯 。 


语法 树 是 一 种 语法 层次 的 描述 ， 在 语法 分 析 阶 段 是 非常 重要 的 。 经 典 5 
树 是 编译 器 的 必 不 可 少 的 输出 ， 许 多 实际 编译 器 的 语 没 


构造 顺序 有 关 。 熟 悉数 据 结构 的 读者 不 难 理解 手工 依据 推导 过 程 构造 语法 树 与 树 的 深度 优先 
遍历 比较 类 似 。 然 而 ， 文 法 3-3 的 表达 式 文法 中 的 语法 层次 也 就 是 运算 符 的 优先 级 。 在 图 3-1 
ct 


层次 ， 先 计算 1-i， 再 计算 3*5， 最 后 计算 两 者 的 和 。 


分 析 阶 段 的 主要 


这 个 语法 层次 〈 即 优 # 


lj 译 理论 认为 语法 
任务 之 一 就 是 构建 语 


法 树 。 当 然 ， 实 际 编译 器 并 不 一 定 需 要 构造 显 式 的 语法 树 。 隐 式 语法 树 是 现代 编译 技术 提出 


的 观点 ， 在 基于 推导 方式 的 语法 分 析 器 中 尤为 常见 ， 并 在 一 定 程度 上 得 到 了 发 展 。 这 主要 是 
由 于 推导 的 过 程 就 是 一 次 树 的 深度 遍历 过 程 ， 所 以 并 不 一 定 需要 显 式 构建 语法 树 。 
那么 ， 对 于 一 个 文法 而 言 ， 语 法 树 与 一 个 句 型 或 句子 的 推导 之 间 是 否 存在 一 一 对 应 关系 
呢 ? 事实 上 ， 在 大 多 数 情况 下 ， 语 法 树 与 一 个 名 型 或 句子 的 推导 是 一 一 对 应 的 。 不 过 ， 也 确 
实 存在 例外 ， 请 参考 下 例 分 析 。 
例 3-6 ”已 知 文法 如 下 : 
【文法 3-4】 
E ->E+E|E*E|(E)|-E|var|const 
句子 3+4*6 存在 两 个 不 同 的 最 左 推 导 及 语法 图 ， 如 图 3-3 所 示 。 
推导 步 又 选择 候选 式 推导 步 又 选择 候选 式 
E => E+E E —>E+E E => E*E BE —>E*E 
=> 3+E E —>var => E+E*E E —>E+E 
=> 3 二 EE* 书 E —>E*E => 3+E*E E 一 > var 
一 > 3+4*E E 一 > Var 一 > 3+4*E E 一 > var 
SS 3+4*6 E 一 > Var 一 > 3+4*6 E —>wvar 
E E 
Bs | 
4 6 3 4 
图 3-3 二 义 性 文法 推导 
注意 ， 读 者 干 万 不 要 将 本 例 的 推导 与 例 3-3、 例 3-4 的 推导 混淆 。 虽 然 本 例 表面 上 与 例 
3-3、 例 3-4 非常 相似 ， 都 是 不 同 的 推导 步骤 推出 了 相同 的 句子 ， 但 是 ， 读 者 一 定 要 深入 理 


解 其 本 质 。 例 3-3、 例 3-4 是 由 于 扒 


Bt 


导 过 程 中 选择 不 同 的 


终结 符 蔡 换 所 致 的 


。 例 3-3 是 最 


推导 ， 即 每 次 替换 最 左 的 非 终结 符 ， 而 例 3-4 是 最 右 推 导 ， 即 每 次 替换 最 右 的 非 终结 符 。 


层次 。 然 而 ， 本 例 的 两 个 推导 都 是 最 左 


的 。 左 图 
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日 于 最 左 或 最 右 推 导 所 构造 的 语法 树 是 相同 的 ， 也 就 是 说 最 左 或 最 右 推导 并 不 影响 句子 的 语 


妆 导 ， 只 是 由 于 选择 了 不 同 的 产生 式 
难看 出 本 例 所 产生 的 语法 树 是 不 同 的 ， 也 就 是 说 ， 本 例 的 两 个 推导 的 语法 层次 结构 也 是 不 同 
中 乘 号 的 语法 层次 高 于 加 号 (表达 式 文法 


时 所 致 。 不 


FP 的 语法 层次 指 的 就 是 运算 符 优先 级 )， 


AAA 
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人 
口 


这 是 符 


是 文 


站 屋 到 并 


3.1.4 


表达 式 的 运算 习惯 的 。 而 右 图 中 加 号 的 i 
右 图 把 表达 式 3+4*6 看 成 (3+4)*6， 
这 种 给 定 文法 G， 如 果 任 何 基 于 文法 的 G 的 句子 存在 两 棵 或 两 棵 以 上 的 语法 树 ， 


i 
又 十 元 


全 


错误 


存在 二 义 性 〈ambiguous) 的 ， 或 称 为 二 义 文法 。 二 义 诉 


法 本 身 的 问题 。 这 类 文法 的 语言 就 像 自 然 语言 


百 法 层次 高 于 乘 号 ， 显 然 不 符合 运算 习惯 。 
的 。 


尔 G 


:问题 的 产生 3 
样 存在 二 义 性 ， 二 义 性 是 计 


里 解 与 处 理 的 。 严 格 地 说 ， 任 何 条 
是 绝对 的 。 在 程序 设计 语言 文法 中 ， 典 型 的 二 义 性 例 
设计 语言 都 存在 下 ELSE 语句 的 二 义 性 问题 ， 
以 解决 二 义 性 问题 。 在 3.3 节 中 将 详 述 I 下 ELSE 语句 的 二 义 愧 


归 约 简介 


口 


许多 数学 运 入 
就 是 不 定 积 分 。 


的 逆 运 
约 思想 主要 源 于 
助 于 一 个 暂 存 


可 归 约 的 


经 过 n 次 替换 最 终 


文法 开始 符 ， 即 


万 口 


符号 


者 


的 栈 把 输入 


得 


续 圣 
说 明 该 


KE 


5 


万 夺 口 


付 写 一 
一 个 候选 式 时 ， 把 栈 顶 这 部 分 符号 串 蔡 换 为 
符号 串 称 为 句柄 (handle)。 对 于 合法 的 输 
文法 开始 符 的 操作 就 是 归 约 。 当 然 ， 如 果 输 入 的 
符号 串 是 非法 的 。 


归 约 与 推导 类 似 ， 同 样 也 存在 最 左 归 约 与 最 右 归 约 之 分 。 


' 自 下 而 上 的 语法 分 析 方 法 一 一 “ 移 进 一 归 约 ” 法 。 这 种 方法 的 


不 是 推导 的 错 
机 所 不 


音 误 ， 


序 设计 语言 原则 上 是 不 允许 存在 任何 二 义 性 的 。 但 这 并 
子 就 是 正 一 ELSE 结构 ， 大 多 数 程序 


田 相 


所 以 编译 器 设计 者 作 了 ELSE 就 近 匹 配 的 约定 
FE 及 其 解决 方法 。 


了 定义 了 相应 的 逆 运 算 或 者 逆 操 作 。 例 如 ， 乘 法 的 逆 运 算 就 是 除法 ， 导 数 
同样 ， 推 性 过程 也 存在 相应 的 逆 过 程 ， 称 为 归 约 (reduction)。 归 


个 个 地 移 进 到 栈 里 ， 当 栈 顶 符号 串 
畜产 生 式 的 左 部 非 终结 
入 符号 串 而 言 ， 


符 


这 种 从 输入 


成 某 个 非 终 


。 通 常 ， 将 这 
符号 


AAA 


付 


sa 


二 付 
' 栈 顶 的 
串 出 发 ， 
号 串 无 法 归 约 得 到 


是 借 


的 


上 太 舍 


最 左 归 约 对 应 的 逆 过 程 就 是 最 


常 将 最 左 归 约 称 为 规范 


导 的 语 


右 推 导 ， 而 最 右 归 约 对 应 的 逆 过 程 正 是 最 左 推导 。 在 形式 语言 中 ， 通 
归 约 ， 而 将 最 右 推导 称 为 规范 推导 。 读 者 必须 注意 ， 这 只 是 一 个 形式 语言 学 中 的 专 有 名 词 而 
已 ， 并 不 表示 规范 归 约 与 规范 推导 就 是 语法 分 析 器 的 核心 方法 。 本 书 所 讨论 的 基于 
法 分 析 器 恰恰 是 使 用 最 左 推导 方法 实现 的 。 下 面 ， 笔 者 通过 一 个 实例 讲解 归 约 的 过 程 。 
例 3-7 使 用 最 左 归 约 的 方法 验证 句子 3*5+(1-D)。 归 约 步骤 如 下 所 示 : 
句 型 句柄 产生 式 
3*5+(1—1i) 3 I 二 Const 
7#xS+(1-i) I F 一 了 
F*5S+(1—-1i) F 1 A kb 
T*5+(1—i) 了 op2 一 * 
Top25+(1-1i) 5 了 = const 
Top2I1+(1-i) I F 一 了 
Top2F+(1-1i) Top2F LE Top2F 
T+(1-1i) T E 一 了 
E+(1-1i) 十 OPD1 一 十 
Eopl(1-i) 1 了 -3 const 
Eopl(I-i) I 让 
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Eopl(F-1i) F TT = 下 
Eopl(T-1) 工 E = 了 
Eopl(E-i) - opl1 一 
Eopl (Eop]li) 1 了 = Var 
Eop]l (下 op77) I Fr 一 了 
Eopl (下 op7F ) F T 一 下 
Eopl (下 op77) EoplT 已 一 EopiT 
Eopl (FE) (E) Fr 一 (E) 
EoplF F T 一 Pr 
EopiT EoplT E 一 EopiT 
E 


归 约 是 一 种 重要 的 语法 分 析 思 想 ， 而 基于 归 约 的 语法 分 析 法 主要 有 LR 分 析 法 、 算 符 优 
先 分 析 法 等 。 由 于 Neo Pascal 语法 分 析 器 是 基于 推导 实现 的 ， 因 此 ， 本 书 只 详细 讨论 基于 推 
导 的 语法 分 析 器 的 设计 与 实现 。 如 果 读 者 对 基于 归 约 的 语法 分 析 器 感 兴趣 ， 可 以 参考 “ 龙 
书 ”或 其 他 相关 资料 。 


|32 语法 分 析 概 述 


3.2.1 语法 分 析 的 任务 


语法 分 析 是 编译 过 程 的 第 二 阶段 ， 也 是 整个 编译 过 程 的 核心 阶段 。 语 法 分 析 的 任务 就 是 
在 词法 分 析 识 别 得 到 单词 流 的 基础 上 ， 分 析 并 判定 程序 的 语法 结构 是 否 符合 预定 义 的 文法 。 
语法 分 析 在 编译 器 中 的 地 位 如 图 3-4 所 示 。 


词法 分 析 器 语法 分 析 器 


语法 树 或 
其 他 形式 


源 程序 单词 流 中 间 代 码 


图 3-4 语法 分 析 在 编译 器 中 的 地 位 


语法 分 析 器 的 输入 就 是 词法 分 析 器 输出 的 单词 流 。 当 然 ， 读 者 应 该 已 经 明确 了 词法 分 析 
既 可 以 作为 独立 阶段 ， 也 可 以 作为 独立 的 一 遍 处 理 。 如 果 词 法 分 析 作 为 独立 的 阶段 ， 那 么 词 
法 分 析 器 将 由 语法 分 析 器 调用 ， 每 次 调用 获得 一 个 单词 。 如 果 词 法 分 析 作 为 独立 的 一 裔 ， 那 
么 词法 分 析 器 将 识别 完成 所 有 单词 并 以 单词 流 的 方式 传输 出 至 语法 分 析 器 。 

语法 分 析 器 没有 统一 的 形式 得 出 形式 。 事 实 上 ， 很 多 编译 器 将 语法 分 析 器 作为 一 个 主 控 
模块 ， 由 语法 分 析 器 驱动 语义 分 析 器 的 方式 完成 语义 分 析 及 中 间 代 码 生成 。 在 这 种 情况 下 ， 
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语法 分 析 器 并 没有 显 式 的 输出 。 
用 的 输出 形式 。 这 一 观点 的 提出 3 
站 述 整 个 输入 源 程序 的 语法 层次 。 不 过 ， 一 些 现代 编译 器 设计 的 观点 认为 基于 
语法 分 析 器 并 非 一 定 要 显 式 构造 语法 树 ， 更 偏向 于 在 语法 分 析 过 程 
程序 ， 而 整个 驱动 语义 分 析 子 程序 的 过 程 正 是 一 个 遍历 语法 树 的 过 程 。 
于 基于 推导 的 语法 分 析 法 ， 对 于 基于 归 约 的 语法 分 析 法 则 稍 难 实现 。 当 然 ， 是 否 显 式 构造 
译 器 设计 者 的 个 人 意志 的 ， 有 时 ， 也 必须 考虑 程序 设计 语言 本 


语法 树 并 不 是 完全 依赖 于 纺 


图 


身 的 因素 。 关 了 


以 参阅 。 


前 面 ， 笔 者 已 经 引入 了 推 
归 约 方式 设计 语法 分 析 器 呢 ? 答案 是 肯定 的 。 
主流 的 语法 分 析 法 可 以 分 为 两 类 : 一 
分 析 法 构造 语法 树 的 过 程 正好 相反 ， 前 者 的 构造 是 从 树 根 开始 逐步 向 树 


语法 分 析 法 。 这 两 


显 式 构造 语法 树 的 利弊 ， 


要 是 由 于 基于 归 约 
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3-3 中 描述 的 语法 树 只 是 经 典 编译 器 设计 中 一 


较为 入 


方式 的 语法 分 析 器 通常 借助 于 语法 树 


E 导 方式 的 


这 


Pp 直接 驱动 语义 分 析 子 


观点 比较 适用 


导 与 归 约 两 


“ 龙 书 ” 的 描述 相对 比较 权威 ， 有 兴趣 的 读者 可 


分 析 方 法 。 读 者 自然 会 问 ， 是 否 可 以 模仿 推导 或 


叶 发 展 ， 而 后 者 是 从 树叶 开始 最 终生 成 树 根 。 
法 (top-down parse)， 将 后 者 称 为 自 
法 各 有 优 缺 点 。 前 者 比较 轻巧 ， 但 对 程序 设计 语言 的 文法 要 求 较 


比较 完备 ， 但 较 复 杂 ， 一 般 适 用 了 
语法 分 析 法 对 程序 设计 语言 的 文法 都 有 一 定 的 要 求 。 尤 其 


工具 自动 生成 。 实 


是 基于 推导 的 语法 分 析 法 ， 另 


是 基于 归 约 的 


因此 ， 习 惯 上 将 前 者 称 为 自 上 而 下 的 语法 分 析 
下 而 上 的 语法 分 析 法 (bottom-up parse)。 这 两 类 语法 分 析 


SJ, 适 


是 自 上 而 下 的 i 


j 于 手工 构造 。 后 者 
际 上 ， 无 论 是 自 上 而 下 还 是 自 


下 而 上 的 


下 法 分 析 法 对 文法 的 


要 求 比较 高 ， 对 于 不 符合 要 求 的 文法 是 不 能 使 用 自 上 而 下 的 语法 分 析 法 的 。 而 自 下 而 上 的 语 


法 分 析 法 对 文法 也 有 


定 要 求 ， 虽 然 绝 大 多 数 程序 设计 语言 者 
有 真正 的 通用 性 。 除 了 这 两 类 语法 分 析 法 ， 还 有 一 些 通 


虽然 这 些 通 用 语法 分 析 法 可 以 构造 适 


可 以 满足 此 要 求 ， 但 还 是 不 具 
语法 分 析 法 〈 如 Earley Parsing )。 
于 任何 文法 的 语法 分 析 器 ， 但 是 ， 它 们 的 算法 复杂 度 


过 高 且 效 率 较 低 ， 故 一 般 情况 下 不 作 考虑 。 相 对 于 自 下 而 上 的 语法 分 析 算 法 而 言 ， 自 上 而 下 


的 语法 分 析 旬 


的 语法 分 析 信 


法 似乎 更 受到 


经 


其 实现 。 


3.2.2” 自 上 而 下 的 语法 分 析 法 


自 上 而 下 的 语法 分 析 法 的 核心 


左 推 


编译 器 设计 者 的 
大 多 数 编译 器 都 是 采用 自 上 而 下 的 语法 分 析 算 法 
Stallman 最 初 设计 的 GCC 是 使 
法 。Neo Pascal 也 是 应 用 


的 语法 分 析 法 及 


导 呢 ?这 个 问题 非常 简单 ， 参 考 了 例 3-4 后 就 不 难 发 现 ， 如 果 使 
析 法 ， 终 结 符 的 匹配 将 从 输入 单词 流 的 最 末端 开始 ， 这 样 的 处 理 对 了 
都 是 非常 困难 的 。 实 际 上 ， 读 者 可 以 想象 ， 如 果 逆 向 阅读 源 程序 的 话 ， 对 于 


青睐 。 笔 者 分 析 了 一 些 主流 编译 器 后 ， 发 现 
的 ， 其 中 最 著名 的 就 是 GCC 与 lcc。 虽 然 
j yacc 实现 的 ， 但 最 新 的 GCC 4.x 版 本 都 是 采用 了 自 上 而 下 
自 上 而 下 的 语法 分 析 法 实现 的 。 下 面 将 介绍 自 上 而 下 


思想 就 是 模拟 最 左 推导 方式 设计 语法 分 析 器 。 为 什么 是 最 


j 最 右 推 导 构 造 语法 分 


AAA 


处 理 符 


号 表 、 语 义 分 析 


不 便 的 。 同 样 ， 


比较 例 3-3 的 最 左 推导 ， 


式 将 便于 语义 分 析 等 。 
在 讲述 文法 推 


导 时 ， 笔 者 提 到 了 


这 就 是 为 什么 自 上 而 下 的 语法 分 析 法 都 是 模拟 最 左 
E 导 过 程 中 有 两 个 选择 ， 即 选择 哪个 非 


里 解 程序 是 非 党 


实际 上 就 是 模拟 正 向 阅读 源 程序 的 过 程 ， 这 种 方 


如 何 选择 合适 的 候选 式 蔡 换 该 非 终结 符 。 


符 ， 并 没有 从 算法 上 讨论 这 个 问题 。 旬 


前 面 ， 只 是 赁 
| 对 这 个 问题 ， 熟 自信 


E 于 的 原 因 O 
终结 符 被 蔡 换 及 


| 


觉 试 探 地 选择 候选 式 替 换 非 终结 
法 设计 的 读者 最 先 想到 的 一 种 解 
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决 办 法 就 是 回溯 法 。 和 暂且 不 论 回溯 法 的 反复 试探 会 大 大 降低 语法 分 析 的 效率 ， 回 济 法 本 身 就 
无 法 解决 这 个 问题 。 通 常 ， 回 渊 法 是 在 有 限 的 集合 中 反复 试探 ， 当 然 ， 有 时 集合 的 数量 级 可 
能 会 很 大 。 对 有 限 语言 的 文法 ， 在 不 考虑 效率 的 情况 下 ， 回 洲 法 或 许 是 可 行 的 。 但 是 ， 程 序 
设计 语言 的 文法 通常 表示 的 句子 集合 是 无 限 的， 回调 法 将 无 法 试探 穷 举 所 有 的 可 能 句子 ， 因 
此 ， 使 用 回 蛮 法 就 存在 一 定 问 题 。 下 面 ， 将 详细 讨论 如 何 设 计 一 个 算法 来 解决 这 个 问题 。 
例 3-8 简单 语法 分 析 算 法 的 设计 。 
【文法 3-5】 

GaA|bB 


4 一 a4|0 
B--bB10 


这 个 文法 非常 简单 ， 对 于 任意 输入 单词 流 ， 程 序 3-1 就 是 基于 文法 3-5 的 分 析 算 法 。 


peer 


程序 3-1 
1 boolB() 
2 { 
3 char c=getc(); 
4 if (c=="b') 
S return B(); 
6 else 
也 if (c=="0") 
8 return true; 
9 else 
10 return false; 
ll  } 
12 bool A( 
1 3 Of{ 
14 char c=getc(); 
15 if (c=='a') 
16 return A(); 
ly else 
18 if (c=="0") 
19 return true; 
20 else 
21 return false; 
90 } 
23 “bool GO 
24 f{ 
25 char c=getc(); 
26 if (c=="'a') 
2 return A(); 
28 else 
29 if (c=="b') 
30 return B(); 
3 else 
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2 return false; 
850 } 


程序 3-1 的 实现 不 算 太 复杂 ， 对 于 有 递归 程序 设计 经 验 的 读者 来 说 只 是 小 菜 一 碟 。 不 
过 ， 读 者 可 能 会 对 程序 3-1 的 算法 实现 提出 疑问 : 文法 3-5 所 描述 的 语言 是 一 个 非常 简单 的 
体系 ， 似 乎 根本 不 需要 使 用 如 此 复杂 的 递归 算法 实现 其 分 析 功 能 。 就 文法 3-5 本 身 而 言 ， 使 
用 此 算法 实现 的 确 有 杀 鸡 用 牛刀 之 感 。 但 是 ， 笔 者 给 出 此 算法 实现 的 目的 并 不 在 于 简单 实现 
文法 3-5 的 语法 分 析 ， 而 旨 在 揭示 一 种 通用 的 算法 实现 方式 。 实 现 上 ， 这 个 算法 实现 是 一 种 
语法 分 析 器 的 模型 ， 读 者 仔细 分 析 算 法 实现 与 文法 形式 ， 不 难 发 现 文法 形式 与 算法 实现 的 结 
构 有 惊人 的 相似 之 处 。 事实 上 ， 这 种 语法 分 析 器 就 是 将 文法 机 械 地 变换 为 等 价 的 算法 实现 。 
由 于 这 种 语法 分 析 器 中 必定 存在 递归 ， 故 称 之 为 递归 下 降 分 析 器 。 大 家 不 要 小 看 这 种 语法 分 
析 器 ， 许 多 经 典 编译 器 正 是 使 用 递归 下 降 分 析 器 实现 的 ， 著 名 的 GCC、1ce 就 位 列 其 中 。 递 
归 下 降 分 析 器 是 自 上 而 下 语法 分 析 器 的 鼻祖 ， 本 书 讨论 的 语法 分 析 器 也 是 递归 下 降 分 析 器 的 
一 种 改进 形式 ， 称 为 LL(1) 语 法 分 析 器 。 这 里 ， 笔 者 将 从 超前 搜索 一 个 单词 的 递归 下 降 分 析 
器 着 手 ， 深 入 讨论 语法 分 析 器 的 构造 。 

显而易见 ， 在 例 3-7 中 ， 可 以 通过 超前 搜索 一 个 单词 从 而 解决 正确 选择 候选 式 的 问题 。 
那么 ， 选 择 候 选 式 的 问题 是 不 是 真正 解决 了 呢 ? 事实 并 非 如 此 ， 如 果 将 文法 3-5 改写 成 文法 
3-6 的 形式 ， 将 无 法 构造 类 似 程序 3-1 的 递归 下 降 分 析 器 。 


【文法 3-6】 
G>yaAlybB 
4 一 a4|10 
BbBI|I0 


这 是 什么 原因 呢 ? 比较 以 上 两 个 文法 ， 不 难 发 现 ， 因 为 G 的 两 个 候选 式 的 首 符号 都 是 
y， 使 用 超前 搜索 一 个 单词 无 法 作出 正确 选择 。 针 对 这 种 情况 ， 是 否 必须 改写 分 析 算 法 呢 ? 
就 此 文法 而 言 ， 确 实 可 以 通过 改写 分 析 算 法 使 之 超前 搜索 两 个 单词 从 而 完成 正确 分 析 。 但 
是 ， 读 者 设想 一 下 ， 由 于 文法 产生 式 具 有 不 确定 性 ， 如 果 G 的 两 个 候选 式 的 首部 有 100 个 
y， 是 否 需要 超前 搜索 100 个 单词 呢 ? 显然 ， 修 改 分 析 算 法 的 方案 可 行 性 较 差 。 

换 一 个 角度 考虑 ， 是 否 可 以 通过 等 价 地 改写 文法 解决 这 个 问题 ? 答案 是 表 定 的 。 可 以 将 
文法 改写 成 如 文法 3-7 的 形式 ， 文 法 3-7 与 文法 3-5 的 形式 非常 相似 。 当 然 ， 就 可 以 构造 出 
类 似 程序 3-1 的 递归 下 降 分 析 器 ， 从 而 实现 了 文法 3-7 的 语法 分 析 功 能 。 


【文法 3-7】 
GY>yF 
F>aA|lbB 
4 一 a4|0 
BbBI|0 


显然 ， 通 过 增加 一 个 非 终结 符 及 两 个 产生 式 就 完成 解决 了 此 问题 。 这 种 处 理 方法 与 数学 
中 提取 公 因 子 比 较 类 似 ， 通 常 称 为 提取 公共 左 因子 。 通 过 前 面 两 个 文法 的 分 析 ， 不 难 发 现 ， 
当 文 法 的 所 有 产生 式 右 部 首 符号 都 是 终结 符 时 ， 就 可 以 根据 文法 构造 出 类 似 程序 3-1 的 递归 
下 降 分 析 器 ， 从 而 完成 语法 分 析 的 工作 。 但 是 ， 对 于 文法 而 言 ， 这 个 条 件 似乎 不 太 合理 。 请 
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参考 文法 3-8: 


【文法 3-8】 
G—>AalbB 
A—aAl0 
B-~bB10 


就 文法 形式 而 言 〈 暂 不 考虑 文法 描述 的 语言 )， 文 法 3-8 与 文法 3-5、3-6、3-7 的 最 大 


区 别 就 是 G 的 一 个 产生 式 的 右 部 
提出 了 挑战 。 如 果 依 然 使 用 原来 的 方法 构造 递归 下 降 分 书 
由 于 无 法 和 


归 现 象 ， 这 显然 是 不 正确 的 。 


| 


符号 


守 而 是 


FE 终 结 符 。 这 个 变化 对 于 分 析 算 法 就 
fT 器 ， 那 么 得 到 的 分 析 器 将 出 现 死 递 
外 定 产 生 式 G 一 A a 可 以 推导 得 到 的 第 一 个 终结 符 ， 


分 析 算 法 也 就 无 法 运用 超前 搜索 一 个 输入 单词 的 方法 确定 选择 哪个 产生 式 。 读 者 应 该 不 难 想 


到 ， 如 果 能 够 确定 非 终 符 A 所 能 推导 得 到 的 所 有 句子 的 首 
于 这 个 集合 确定 何 时 该 选择 产 4 


符 的 集合 ,， 那么， 就 可 以 借助 


E 式 G 一 A a 进行 推导 ， 通 常 将 这 个 集合 称 为 First 集合 。 剩 下 


的 问题 关键 就 在 于 如 何 确定 First 集合 ， 这 里 就 文法 3-8 进行 讨论 。 在 文法 3-8 中 非 终结 符 


A 可 以 推导 得 到 的 句子 为 “0”“a0”“aa0”... 


… 等 等 ， 不 难 


出 非 终结 符 A 可 以 推导 得 到 


的 所 有 句子 的 首 符号 的 First 集合 就 是 [0，a]。 由 于 程序 设计 语言 的 文法 是 预知 的 ， 可 以 依 此 
方法 事先 求 出 每 个 产生 式 的 First 集合 ， 而 分 析 算 法 只 需 根据 First 集合 选择 候选 式 即 可 。 
最 后 ， 再 来 讨论 一 种 相对 复杂 的 文法 情况 ， 请 参考 文法 3-3。 就 文法 形式 特点 而 言 ， 文 


法 3-3 与 文法 3-8 似乎 有 点 类 似 ， 它 们 都 存在 右 部 以 非 终结 符 为 首 的 产生 式 。 但 是 ， 读 者 可 
以 尝试 使 用 文法 3-8 的 处 理 方法 变换 文法 3-3， 一 定 会 发 现 即 使 求 出 产生 式 E>E op1 T 和 7 
一 了 op2 卫 的 First 集 合 也 没有 任何 意义 。 因 为 ,产生 式 E>E op1T 和 产生 式 E 一 7 了 的 First 集 
据 First 集合 选择 候选 式 的 算法 将 无 法 作出 决 
即 产生 了 分 析 冲 突 ， 表 示 该 程序 


合 必 定 是 相同 的 ， 对 于 非 终 结 符 E 而 言 ， 根 
策 。 如 果 同 一 个 非 终结 符 的 候选 式 的 First 集合 存在 交错 
设计 语言 的 文法 不 合适 使 用 这 种 语法 分 析 法 。 
如 果 诸 如 例 3-3 的 标准 表达 式 文 法 也 不 能 分 析 ， 那 么 ， 本 
失去 了 任何 价值 。 显 然 ， 必 须 通过 一 些 加 了 
仔细 分 析 产 生 式 E- 下 op1 7， 一 
终结 符 与 产生 式 左 部 的 非 终结 


左 递归 文法 的 情况 ， 例 如 ; 


【文法 3-9】 
A—Bal0 
BAb|0 


长 ， 


讨论 的 语法 分 析 法 似乎 已 经 
， 使 文法 3-3 满足 语法 分 析 方法 的 需求 。 
够 发 现 这 个 产生 式 的 特点 是 产生 式 右 部 的 第 一 个 非 
符 相 同 ， 这 种 文法 称 为 左 递归 文法 。 注 意 ， 读 者 必须 考虑 间接 


文法 3-9 表面 上 看 并 不 是 左 递归 文法 ， 但 将 B 一 A b 产生 式 的 右 部 代入 A 一 B a 产 生 式 的 


无 法 判定 递归 出 口 ， 将 陷入 死 递 归 。 


图 消除 左 递归 文法 的 递归 


ROG 
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式 ; JN 


器 


ZI 


已 
已 


那么 ， 左 递归 文法 应 该 如 何等 价 变换 呢 ? 必须 明确 指 上 
存在 递归 〈 可 以 是 左 递归 或 者 右 递 归 )。 
的 句子 是 可 以 枚 举 列 出 的 )， 然 而 ， 任 何 程序 设计 语言 必定 是 无 限 上 


因为 没有 递归 的 文法 只 能 描述 


非 终结 符 B 时 ， 即 产生 了 左 递归 文法 。 左 递归 文法 的 最 主要 问题 在 于 使 用 最 左 推导 时 ， 由 于 


上 :任何 程序 设计 语言 的 文法 必定 


限 的 语言 〈 即 语言 


的 语言 。 因 此 ， 不 可 能 试 


各 左 递归 形式 等 价 变换 为 右 递归 形式 或 者 其 他 形式 ， 这 
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种 变换 通常 称 为 消除 左 递归 。 通 常 ， 使 用 如 下 公式 将 左 递归 文法 等 价 变换 为 右 递归 文法 : 
P=>bR 
R>aR|&E ( “8g” 表 示 一 个 空 字 ) 
右边 是 一 个 右 递归 文法 。 左 右 文法 描述 的 语言 是 等 价 的 ， 而 右 递归 文法 不 存在 左 递归 文 
法 在 最 左 推导 时 的 不 足 之 处 。 当 然 ， 消 除 左 递归 的 变换 也 带 来 了 一 个 新 的 问题 ， 那 就 是 。 
〈《 空 字 ) 的 出 现 。 确 实 ， 这 将 给 语法 分 析 带 来 一 定 的 不 便 ， 但 并 不 像 左 递归 文法 那样 存在 不 
可 和 逾越 的 障碍 。 

消除 左 递归 的 变换 中 ， 最 重要 的 就 是 如 何 准 确 辨 别 给 定 产生 式 中 哪 一 部 分 是 公式 中 的 a 
部 分 ， 而 哪 一 部 分 是 公式 中 的 b 部 分 。 在 实际 文法 中 ，a、b 通常 可 能 是 符号 串 形式 ， 而 不 是 
简单 的 单一 符号 。 下面， 通过 实例 说 明 如 何 辨别 产生 式 的 a、b 部 分 。 

例 3-9 消除 左 递归 变换 。 


PPalb 


E ~ EoTIT 
T 一 Top2FIE 
Fr > (E)|-FI 
I 本 Var | const 
opl 二 十 | - 
op2 = * | 7 


注意 : 将 单 下 画 线 部 分 看 作 a 部分， 将 双 下 夯 线 部 分 看 作 b 部 分 。 
经 消除 左 递归 后 变 成 : 
【文法 3-10】 


五 2 了 五 1 

El opl TE1| < 
了 > FTl 

71 = op2FTI| < 
Fr > (E)|I-FI 

I var | const 
OD7 条 十 | - 

0D2 一 | 


下 面 ， 再 来 看 看 右 部 为 s 的 候选 式 。 当 候选 式 右 部 为 8 时 ， 显 然 无 法 简单 地 求 得 此 候选 式 
的 First 集合 。 原 因 非 常 简单 ， 源 程序 单词 流 中 是 不 可 能 存在 s 的 ， 所 以 将 sg 加 入 First 集合 是 
意义 的 。 那 么 ， 何 时 选择 gs 候选 式 进一步 推导 呢 ? 必须 寻找 一 种 有 效 的 方法 解决 s 候 选 式 的 
选择 问题 。 
候选 式 的 右 部 为 se 即 表 示 候 选 式 的 左 部 非 终结 符 可 以 用 s 蔡 换 。 那 么 ， 候 选 式 右 部 出 现 s 
意味 着 什么 呢 ? 先 来 看 一 个 例子 : 
【文法 3-11】 
G 一 aRb 
Rela 
这 个 文法 比较 简单 ， 它 只 包含 两 个 句子 ， 即 ab 和 aab。 显 而 易 见 ， 要 推导 出 句子 ab， 
符号 串 a R b 中 的 非 终结 符 R 只 能 被 s 蔡 换 。 在 符号 串 中 某 个 非 终结 符 被 s 蔡 换 时 ， 实 际 上 就 


I 
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to 


这 里 先 假设 选择 zs 候选 式 。 这 检 
至 符号 b， 并 继续 分 析 匹 配 。 不 难看 出 ， 当 选 提 
与 单词 流 的 当前 符号 比较 。 如 果 能 事先 分 析 得 至 
可 求 得 此 集合 能 推导 出 的 所 有 人 句子 的 首 终 绰 
就 是 选择 R 的 e 候 选 式 的 依据 。 在 文法 3-11 中 ， 非 
由 于 b 是 终结 符 ， 所 以 它 的 Follow 


将 该 非 终 结 符 从 符号 串 中 直接 剔除 。 


里 解 了 非 终结 符 推导 出 s 的 含义 后 ， 就 可 以 继续 讨论 何 时 选择 s 候 选 式 了 。 几 3-5 是 选择 
非 终结 符 R 的 候选 式 时 的 指针 状态 示意 图 ， 指 针 1 指向 产生 式 
前 搜索 指向 单词 b。 显 然 ， 候 选 式 R 一 a 的 First 级 
First 集合 内 ， 故 不 能 选 该 候选 式 。 那 么 ， 唯 有 gs 候 选 式 可 选 ， 上 日 


符号 捉 的 R， 而 指针 2 由 于 超 


导 合 是 [a]， 指 针 2 指向 的 单词 不 在 候选 式 的 


于 单词 流 ab 是 合法 的 句子 ， 


FE， 产生 式 符 号 串 的 非 终 


4 符 R 被 直接 剔除 了 ， 指 针 1 就 后 移 
5 候选 式 时 ， 实 际 上 是 非 终结 符 R 后 的 符号 
| 非 终结 符 R 之 后 允许 出 现 的 符号 串 集 合 ， 便 
记 作 Follow 和 集合。 那么 ，Follow 集合 
符 R 后 允许 出 现 的 符号 串 只 有 b， 而 
时 合 就 是 [b]。 也 就 是 说 ， 在 选择 非 终 结 符 R 的 候选 式 


时 ， 当 单词 流 中 超前 搜索 得 到 的 单词 是 b 时 ， 则 选择 R 的 g 候 选 式 进 行 推导 。 由 于 一 个 非 终 


结 符 的 s 候 选 式 最 多 只 能 有 


图 3-5 选 j 


条 ， 故 一 个 非 终结 符 的 Follow 集合 是 唯一 的 。 


产生 式 符号 串 


至 此 ， 就 可 以 借助 于 First 集合 与 下 


选 式 时 ， 主 要 根据 超前 搜索 得 到 的 输入 单 i 
式 的 First 集合 时 ， 则 选择 i 
时 ， 则 选择 当前 非 终 结 符 的 s 候 选 式 进行 推导 。 必 须 注 意 两 点 : 

了 8 候选 式 ， 则 它 的 Follow 集合 为 空 集 。 


(1) 如 果 非 终结 符 没 


择 非 终结 符 R 的 候选 式 时 的 指针 状态 示意 图 
合 辅助 选择 候选 式 了 。 在 选择 非 终结 符 的 候 


ollow 集 


玄 候 选 式 进行 


判定 。 当 输入 单词 属于 当前 非 终结 符 的 某 个 候选 
推导 。 当 输入 单词 属于 当前 非 终结 符 的 Follow 集合 


(2) 对 于 一 个 非 终结 符 而 言 ， 它 的 全 部 First 集合 与 Follow 集合 之 间 都 是 两 两 不 相交 


的 ， 否 则 说 明文 法 不 适用 于 超前 搜索 一 个 单词 的 语法 分 析 法 。 
这 里 ， 引 入 了 两 个 重要 的 集合 : First 集合 与 Follow 
概念 。 目 前 ， 读 者 不 必 深 究 如 何 计 售 


入 First 集合 、Follow 集合 的 


3.2.3 ”构造 语法 分 析 器 


Neo Pascal 的 语法 分 析 器 是 基于 


上 而 下 的 语法 分 析 器 相关 理论 及 其 构造 为 主 。 自 上 而 | 


造 。 而 自 下 而 上 的 语法 分 析 器 的 分 析 表 非常 
向 于 手工 编码 完成 ， 故 自 上 而 


pa 


下 的 语法 分 析 器 主要 包括 三 项 工作 : 


目的 及 其 解决 的 问题 ， 这 远 比 后 

综 上 所 述 ， 通 过 等 价 变换 文法 或 少量 修改 分 析 算 法 等 方式 
简单 原型 。 此 原型 目前 还 存在 
读者 应 该 掌握 根据 文法 的 特点 ， 
造 First 集合 、Follow 集合 来 加 


许多 不 足 之 处 ， 将 在 后 
提取 公共 左 


自 上 而 下 的 语法 分 析 法 构造 的 ， 所 以 本 书 以 详细 介绍 自 
法 分 析 器 短小 精 悍 ， 适 于 手工 构 


合 ， 这 是 自 上 而 下 语法 分 析 法 的 核心 
些 复杂 文法 的 First 集合 与 Follow 集合 ， 只 需 深 入 理解 引 
续 学 习 如 何 计算 重要 得 多 。 


已 经 实现 了 一 个 语法 分 析 器 的 


续 章节 中 逐步 完善 。 通 过 本 小 节 学 习 ， 
因子 和 消除 左 递归 。 另 外 ， 读 者 还 学 会 了 如 何 构 
助 选择 候选 式 进行 推导 ， 它 们 是 构造 语法 分 析 器 的 基础 。 


能 手工 完成 。 许 多 经 典 编译 器 信 
器 成 为 不 少 经 典 编译 器 的 不 二 之 选 。 构 造 自 上 而 


的 语法 分 


1) 变换 程序 设计 语言 的 文法 ， 使 2 
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满足 


自 上 而 下 的 语法 分 析 法 的 要 求 。 


语法 分 析 | 第 3 膏 


2) 构造 文法 的 First 集合 与 Follow 集合 ， 作 为 分 析 算 法 选择 候选 式 的 依据 。 
3) 编码 实现 自 上 而 下 的 语法 分 析 算 法 。 
1. LL(1) 文 法 
自 上 而 下 的 语法 分 析 法 适用 于 大 多 数 程 序 设 计 语 言 ， 但 确实 也 有 一 些 特殊 的 文法 不 适用 
于 自 上 而 下 的 语法 分 析 法 。 如 果 给 定 文 法 符合 如 下 两 个 条 件 〈 读 者 先 不 必 深 究 ): 
(1) 文法 不 含 左 递归 。 
(2) 对 于 文法 中 每 一 个 非 终 结 符 A 的 各 个 候选 式 的 First 集合 、Follow 集合 两 两 不 相 
。 即 知 


和 | 
y| 


A 一 al |a2 |.…| on 
则 


First(a)fN First(a;)=$ (zj) 且 QU First(a,)) (| Follow(A) 


i=] 

则 称 为 LL(1) 文 法 。 笔 者 先 解 释 一 下 LL(1) 的 含义 ， 第 一 个 “L” 是 scanning from left to right 
的 意思 ， 即 自 左 向 右 扫 描 输入 单词 。 第 二 个 “L” 是 leftmost derivation 的 意思 ， 即 最 左 推 
导 。 而 “(1)” 表示 超前 搜索 一 个 单词 。 
前 面 ， 已 经 讨论 了 如 何 将 一 个 普通 的 文法 变换 为 LL(1) 文 法 。 不 过 ， 并 不 是 任何 文法 都 
可 以 变换 为 LL(1) 文 法 的 。 通 过 任何 方法 都 无 法 使 其 满足 上 述 两 个 条 件 的 文法 就 是 真正 的 非 
LL(1)， 也 就 不 适用 于 LL(1) 语 法 分 析 法 了 。 当 然 ，LL(1) 文 法 也 是 存在 不 足 之 处 的 。 读 者 不 
难 发 现 ， 经 过 变换 后 的 LL(1) 文 法 的 可 读 性 、 可 理解 性 远 不 及 原始 文法 ， 这 也 是 自 上 而 下 的 
语法 分 析 法 的 最 大 缺点 。 

2. First 集合 

下 面 ， 笔 者 将 给 出 First 集合 的 定义 。 

如 果 A 是 任意 的 文法 符号 串 ， 则 将 从 A 推导 出 的 串 的 开始 符号 的 终结 符 集 合 称 为 
First(A)， 即 First(A)={alA 涯 >a...，a 是 终结 符 }。 如 果 A 兰 > sg， 则 s 也 属于 First(A)。 

当 候 选 式 不 为 空 字 时 ，First 集合 是 语法 分 析 器 选择 候选 式 的 重要 依据 。 如 果 当 前 需 被 蔡 
换 的 非 终结 符 为 A， 而 超前 搜索 得 到 的 输入 单词 T 属于 First(A 一 B) 集 合 ， 则 选择 候选 式 B 
替代 非 终结 符 A。 这 里 ， 主 要 讨论 如 何 计 算 LL(1) 文 法 的 First 集合 。 

对 于 任意 文法 符号 A， 可 以 应 用 下 列 规则 计算 First(A): 

1) 如 果 A 是 终结 符 ， 则 First(A) 就 是 {A}。 

2) 如 果 A 一 e 是 一 个 候选 式 ， 则 将 ge 加 入 First(X) 中 。 

3) 如 果 A 是 非 终 结 符 ， 且 A 一 Y1Y;...Yn 是 一 个 产生 式 ， 则 

a) First(Y1) 中 的 所 有 符号 加 入 First(A) 中 。 

b) 如 果 对 于 某 个 i 而 言 ，aEFirst(Yi) 并 且 s EFirst(Y1),.….,First(Yi1)， 即 Yi1...Yi1 兰 > 8， 
则 将 a 加 入 First(A) 中 。 

c) 若 对 于 所 有 的 j=1, 2, .…, k, s 属 于 First(Yj)， 则 将 s 加 入 FirstCX) 中 。 

4) 重复 以 上 过 程 ， 直 到 没有 终结 符 或 s 可 加 到 某 个 First 集合 为 止 ， 即 迭代 过 程 结束 。 

3. Follow 集合 

前 面 已 经 介绍 了 Follow 集合 的 作用 。 在 正式 给 出 Follow 集合 的 定义 之 前 ， 不 妨 先 思 
一 个 问题 。 读 者 应 该 还 记得 在 设计 词法 分 析 器 时 ， 为 了 便于 词法 分 析 器 超前 搜索 算法 的 实 


a! 
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Ck) 


超前 搜索 算法 顺利 识别 源 程序 文本 的 最 后 
相同 的 问题 呢 ? 的 确 如 此 ， 设 计 语 法 分 析 器 时 需 
结 ， 一 般 可 以 称 为 文法 结束 符 ， 记 作 “$”( 有 些 书 上 i 
结束 符 是 由 语言 设计 者 定义 的 ， 文 法 结束 


就 是 文法 结束 符 。 文 法 结束 符 有 时 3 


不 需要 考虑 隐 式 定义 的 相关 技巧 。 


不 是 显 式 存 在 的 ， 例 如 ，C、BASIC、Java 和 
确定 义 文法 结束 符 ， 这 就 需要 编译 器 设计 者 在 设计 语法 分 析 器 时 隐 式 定义 。 文 法 结束 符 
个 终结 符 ， 它 保证 了 超前 搜索 算法 的 一 致 性 。 


现 ， 统 一 在 整个 源 程序 文本 的 尾部 自动 添加 了 一 个 空格 字符 。 这 样 ， 词 法 分 析 器 就 可 以 运用 
个 单词 。 那 么 ， 在 设计 语法 分 析 器 时 会 不 会 存在 


己 作 “#2)7。 一 门 和 


要 定义 一 个 特殊 的 结束 单词 以 表示 源 程序 终 
序 设 计 语 言 的 文法 
有 时 可 以 在 文法 中 体现 ， 例 如 ，Pascal 中 规定 “.” 


并 没有 明 


由 于 Neo Pascal 显 式 定义 了 结束 符 ， 


日 .  . 


A 下 


因此 ， 并 


如 果 A 是 一 个 非 终结 符 ， 则 Follow(A) 是 包含 所 有 在 句 型 中 紧 跟 在 A 后 面 的 终结 符 a 的 


集合 ， 即 Follow(A)={alS 兰 >…Aa…, a 是 终 弓 
上 ，Follow(X) 表 示 非 终结 符 X 后 紧 接着 可 以 出 现 的 终结 符 或 文法 


为 < 时 ，Follow 集合 是 语法 分 析 器 选择 候选 式 的 习 


和 符 } 。 如 果 S$ 涯 >…A， 则 $EFollow(A)。 实 际 
当 候 选 式 
EE 要 依据 。 如 果 当 前 需 被 蔡 换 的 非 终结 符 为 


A， 而 超前 搜索 得 到 的 输入 单词 T 属于 Follow(A) 集 合 且 不 属于 任何 First(A) 集 合 时 ， 则 选择 


2 候选 式 进行 推导 。 


对 于 文法 符号 A， 可 以 应 用 下 列 规则 计算 Follow(A): 


1) 如 果 A 是 文法 开始 符 ， 则 将 $ 置 于 Follow(A) 中 。 其 中 ，$ 表 示 文 法 的 结束 符 。 
2) 若 存在 产生 式 A 一 aBb， 则 将 First(b) 中 除了 g 以 外 的 


zen 


符号 都 放 入 Follow(B) 中 。 


3) 若 存在 产生 式 A 一 aB， 或 者 A 一 aBb， 其 中 First(b) 中 包含 e( 即 b 兰 >e )， 则 将 


Follow(A) 中 的 所 有 符号 都 放 入 Follow(B) 中 。 
4) 重复 以 上 过 程 ， 直 到 没有 终结 符 或 e 可 加 到 某 个 Follow 集合 为 止 ， 即 迭代 过 程 
例 3-10 计算 文法 3-10 的 First 集合 与 Follow 集合 。 见 表 3-1。 


表 3-1 文法 3-10 的 First 集合 与 Follow 集合 


序 号 产 生 式 First 集合 攻 
1 E>TE!l {(,-,Var,const) 
之 El>op1TE!l {+,-} 

3 五 ] 一 8 

4 7 一 户 71 {(,-;Var,const) 
5 Tl>op2 F171 {*,/} 

6 TI> & 

了 F™(E) {0 

8 F—-F 0 

9 FI {var,const} 

10 7 一 Var {var} 

11 7 一 const {const} 

12 0OD7 一 十 {+} 

13 opl™- {-} 

14 op2™* {*} 

15 op2 一 / 共 


计算 First 集合 : 


为 了 便于 计算 ， 首 先 计 算 右 部 首 符号 为 终结 符 的 产生 式 的 First 集合 。 由 于 首 
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符号 为 终 


结 符 的 产生 式 的 First 集合 就 是 本 身 ， 所 以 ，First(op2 一 人 ={/}、First(op2 一 *)={*}、First(op1 
>+)={+}、First(opl 一 -)={-}、First(I>var)={var} 、First(I>const)= {const} 、First(F 一 -F)={-}、 


First(F—(E))={(}。 


然后 ， 计 算 右 部 首 符号 为 非 终结 符 的 产生 式 的 First 和 集合。 例如 ，First(F 一 
D={fvarconsty， 因 为 I 是 非 终 结 符 ，First(F 一 了 是 工 的 所 有 产生 式 的 First 集合 的 并 集 。 同 


计算 Follow 和 集合: 


理 ， 可 以 计算 得 到 其 他 右 部 首 符号 为 非 终 结 符 的 产生 式 的 First 集合 。 
最 后 ， 右 部 为 。 候选 式 的 First 集合 不 存在 的 ， 则 无 需 计 算 。 


里 论 上 讲 ， 每 个 非 终结 符 都 有 一 个 且 只 有 


个 Follow 集合 。 不 过 ， 由 于 Follow 集合 


仅 可 用 于 选择 。 候选 式 ， 因 此 ， 只 需 计 算 存在 * 候选 式 的 非 终结 符 的 Follow 集合 。 这 里 ， 


只 需要 计算 El 和 TI1 的 Follow 集合 即 可 。 另 外 ， 计 算 非 终结 符 的 Follow 集合 时 ， 经 常用 


到 文法 开始 符 的 Follow 集合 ， 为 了 方便 计算 ， 


首先 计算 文法 开始 符 E 的 Follow 集合 。 由 于 EE 是 文法 开始 符 ， 故 先 将 文法 结 
Follow(E)。 同 时 ， 非 终结 符 EE 也 出 现在 产生 式 7 的 右 部 符号 串 


部 符号 串 中 紧 接着 E 后 的 是 终结 符 “)”， 根 据 计算 规则 2， 终 结 符 “)” 


Follow(E)。 计 算得 到 Follow(E)={$,)}。 


下 面 ， 计 算 El 的 Follow 集合 。 非 终结 符 El 出 现在 产生 式 1、2 的 右 部 符号 呈 


FP， 不 难 发 现 ， 产 生 式 7 的 右 


文法 开始 符 的 Follow 集合 也 需要 事先 计 


束 符 $ 加 入 


也 被 加 入 


中 。 由 于 


产生 式 2 的 左 部 是 E1 本 身 ， 不 需要 处 理 ， 那 么 ， 只 需 考虑 产生 式 1。 不 难 发 现 ， 产 生 式 1 
的 形式 与 计算 规则 3 描述 的 产生 式 形 式 类 似 ， 根 据 计 算 规则 3， 必 须 将 Follow(E) 集 合 添加 到 
Follow(E1) 中 。 所 以 ，Follow(E1)=Follow(E)={$,)}。 


最 后 ， 计 算 Tl 的 Follow 集合 。 非 终结 符 T1 出 现在 产生 式 4、5 的 右 部 符号 


中 。 由 于 


产生 式 5 的 左 部 是 T1 本 身 ， 不 需要 处 理 ， 那 么 ， 只 需 考虑 产生 式 4。 产 生 式 4 的 形式 与 计 


算 规则 3 描述 的 产生 式 形 式 类 似 ， 根 据 计算 规则 3， 
中 ， 故 必须 先 计 算 Follow(T) 集 合 。 非 终结 符 T 出 现在 产生 式 1、2 的 右 部 符号 串 


必须 将 Follow(T) 集 合 添加 到 Follow(T1) 


PF， 而 紧 接 


着 工 后 的 非 终 结 符 都 是 El1。 根 据 计 算 规则 2， 先 将 First(E1) 集 合 〈 除 了 外 ) 添加 到 
Follow(T) 中 ， 此 时 ，Follow(T)={+,-}。 同 时 ， 由 于 El 存在 空 字 候选 式 ， 故 必须 将 Follow(E1) 
添加 到 Follow(T) 中 。 这 样 就 得 到 了 Follow(T1)=Follow(T)= {+,-,$,)} 。 


计算 结果 见 表 3-1。 
4. LL(1) 语 法 分 析 器 


至 此 ， 已 经 完成 了 构造 语法 分 析 器 的 准备 工作 ， 主 要 包括 变换 LL(1) 文 法 、 计 
合 及 Follow 集合 等 。 当 然 ， 运 用 类 似 于 例 3-7 的 方法 借助 于 文法 的 First 集合 与 Follow 集合 
完全 可 以 构造 递归 下 降 分 析 器 。 递 归 下 降 分 析 器 非常 有 利于 手工 构造 语法 分 析 器 ， 
分 析 器 和 短小精悍、 灵活 多 变 。 但 递归 下 降 分 析 器 存在 两 个 缺点 : 


(1) 算法 本 身 过 多 依赖 程序 设计 语言 文法 。 


(2) 该 算法 必须 有 实现 递归 的 程序 设计 语言 编译 器 的 支持 。 


虽然 大 多 数 通 用 机 的 编译 器 都 支持 递归 调用 


算 First 集 


它 使 语法 


但 不 支持 递归 调用 的 情况 并 不 少见 。 不 文 
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持 递归 调用 的 原 


因 很 多 ， 大 部 分 是 由 于 程序 设计 语言 或 者 编译 器 设计 本 身 的 问题 ， 例 如 ， 


期 的 Fortran 就 是 由 


论 系统 栈 的 问题 。 


述 了 如 何 将 递归 算法 改写 为 
上 而 下 
量 、 返 回 


不 需要 考虑 系统 栈 的 管理 。 如 果 试 攻 

统 栈 ， 栈 结构 当然 就 是 不 二 之 选 了 。 
LL(1) 语 法 分 析 器 有 一 个 输入 缓冲 

区 就 是 词法 分 析 器 的 输 


输入 组 


息 。 分 析 表 是 一 张 依据 文法 First、Follow 集合 构造 的 二 维 表 ， 
心 。 而 分 析 栈 是 一 个 用 户 定义 的 栈 结构 ， 栈 的 元 素 是 文法 


非 终结 符 。 


LL(1) 语 法 分 析 器 如 图 3-6 所 示 ， 由 一 个 3 
) 和 输入 缓冲 区 的 当前 单词 符号 a 


大人 品 


(从 亏 


乡 


的 语法 分 析 器 。 递 归 算 法 的 本 


在 数据 结构 中 ， 许 多 算法 都 有 递归 与 非 递归 两 
递归 算法 。 同 样 ， 也 可 
质 就 是 利 


译 器 采用 了 静态 存储 分 配方 式 ， 从 而 无 法 实现 递归 调用 。 但 是 ， 
时 也 可 能 是 由 于 计算 机 硬件 系统 没有 系统 栈 结构 而 不 支持 递归 调 月 


时 
有 
的 。 在 第 8 章 中 将 详细 讨 


' 描 述 形式 ， 有 些 数据 结构 教材 甚至 还 讲 
以 将 递归 下 降 分 析 器 改写 成 非 递归 的 自 


用 系统 栈 暂 存 函数 的 运行 时 环境 〈 如 


局 部 变 


名 


地 址 、 参 数 等 )， 而 系统 栈 对 于 递归 程序 本 身 是 透明 的 ， 用 户 在 编写 递归 程序 时 并 


田 


握 弃 递归 


8 单词 流 ， 输 出 流 主要 用 了 


述 形 式 ， 就 必须 定义 一 


数据 结构 来 模拟 系 


区 、 一 个 分 析 栈 、 一 张 分 析 表 和 一 个 输出 流 。 通 常 ， 
输出 语法 分 析 过 程 中 的 出 
它 是 LL(1) 语 法 分 析 器 的 核 


错 信 


| 


的 符号 ， 


1) 如 果 S=a=$， 则 语法 分 析 成 功 完成 。 


2) 如 果 S=a 隆 $， 则 语法 分 析 器 弹出 分 析 栈 栈 顶 符号 


个 符号 。 


3) 如 果 S 是 非 终 台 


记 付 ， 


人 三 


决定 语 没 


分 析 器 的 下 一 步 动作 : 


则 查询 分 析 表 T 的 T[S, a] 项 。 分 析 表 工 中 的 项 只 有 两 


既 可 以 是 终结 符 也 可 以 是 


E， 并 将 输入 缓冲 


FE 控 程序 控制 ， 主 控 程 序 根据 分 析 栈 栈 顶 元 素 S 


区 的 指针 后 移 一 


' 值 ， 即 


S 的 某 个 候选 式 或 出 错 标志 。 如 果 T[S, a] 项 是 非 终结 符 S 的 某 个 候选 式 ， 则 先 弹 出 分 析 栈 栈 


项 符号 


程序 或 提示 出 错 信息 。 


4) 如 果 $S 是 终结 
序 或 提示 出 错 信息 。 
下 面 就 来 看 看 


Ei 
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输入 缓冲 区 


3-6 LL(1) 语 法 分 析 器 模型 


符 ， 但 S 取 a， 则 表示 输入 源 程 序 不 


S， 再 将 T[S, a] 项 的 候选 式 右 部 符号 串 反 序 入 栈 (如果 候 选 式 右 部 符号 为 。 ， 
要 入 栈 )。 如 果 T[S, a] 项 是 出 错 标志 ， 则 表示 输入 源 程 序 不 正确 ， 


正确 ， 


LL(1) 语 法 分 析 器 的 伪 代 码 实 现 。 


语法 分 析 器 调 


则 不 需 


语法 分 析 器 调用 错误 处 理 


错误 处 理 程 
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程序 3-2 LL(1) 语 法 分 析 器 的 伪 代 码 实现 


1 /假设 输入 缓冲 区 Token[] 
2 ”把 文法 结束 符 “$” 入 栈 ; 
3 ”把 文法 开始 符号 入 栈 ; 
4 i=l; // 输 入 缓冲 区 的 指向 当前 符号 的 指针 
3 a=Token[il; 
6 ”while ( 栈 不 空 && 输入 符号 未 读 完 ) 
7 | 
8 弹出 栈 顶 符号 并 置 入 S 中 ; 
9 if(SEVT) 
10 { 
11 if (S—a) 
12 计 十 ; 
13 else 
14 出 错 处 理 或 提示 出 错 信息 ; 
15 } 
16 else 
ji { 
18 if (S—'$') 
19 { 
20 if (S==a) 
21 break; 
2 else 
23 出 错 处 理 或 提示 出 错 信息 ; 
24 } 
人 25 else 
26 { 
D7 if(T[S, a] 是 S 的 某 个 候选 式 ) 
28 把 该 候选 式 右 部 符号 串 反 序 入 栈 〈 除 之 外 ) ; 
9 else 
30 出 错 处 理 或 提示 出 错 信 息 ; 
31 } 
3 } 
B30 } 


34 。 这 楼 不 空 | 输入 符号 未 读 完 ) 


35 出 错 处 理 或 提示 出 错 信息 ; 


这 里 只 给 出 了 算法 的 伪 代 码 ， 在 后 文 剖析 Neo Pascal 语法 分 析 器 源 代 码 时 ， 将 详细 给 出 


预测 分 析 器 的 CH+ 源 代码 。 
仔细 分 析 LLUD 语 法 分 析 器 的 算法 ， 应 该 不 难 理解 分 析 表 的 功能 。 分 析 表 的 作用 是 : 当 
非 终结 符 $ 遇 到 和 输入 符号 a 时 ， 辅 助 语法 分 析 器 选择 哪 条 候选 式 进一步 推导 。 如 果 无 法 选择 


合适 的 候选 式 推导 ， 则 表示 输入 源 程序 不 正确 。 所 以 ， 分 析 表 的 表 项 只 有 两 种 情况 ， 即 候选 


式 或 出 错 标志 。 


前 面 已 经 介绍 了 递归 下 降 分 析 器 选择 候选 式 的 依据 是 文法 的 First、Follow 集合 。 在 构造 


分 析 表 时 ， 同 样 也 不 少 了 它们 的 帮助 。 下 面 通过 实例 讲解 如 何 构造 分 析 表 。 


69 


编译 器 设计 之 路 
例 3-11 根据 文法 3-10 构造 预测 分 析 表 ， 见 表 3-2。 
表 3-2 预测 分 析 表 
二 3 / var const ( ) $ 
E err E>TE! err err E>TEI!l 卫 一 工 E1 卫 一 工 E1 err Err 
El | El~>opl TEl | El~>opl TEIl err err err err err El & El &e 
工 err TF Tl err err T>F Tl T>F Tl TFTI err Err 
Tl Tl—&e T1 一 8 TIl>op2F Tl1 | TI 一 op2FTI1 err err err Tl~& Tl & 
F err F——F err err F—I F—I F—(E) err Err 
I err Err err err I™>var I—™>const err err Err 
opl op1 一 十 op1 一 - err err err err err err Err 
op2 err Err Op2™—* op2 一 / err err err err Err 
首先 ， 以 非 终结 符 为 行 ， 终 结 符 为 列 ， 构 造 一 张 空 表 。 
然后 ， 依 次 处 理 文法 中 每 个 产生 式 ， 以 左 部 非 终结 符 定位 行 ， 以 产生 式 的 First 集合 中 
的 终结 符 定 位 列 ， 将 该 产生 式 填 入 相应 单元 格 中 。 以 产生 式 ET El 为 例 ， 已 经 计算 得 到 


该 产生 式 的 First 集合 为 {(,-,var,const} 。 


分 别 填 入 E 行 的 “(”“ 一 人 
Follow 集合 中 的 终 


纽 


所 


“var 


符 定位 列 ， 将 产 4 


先 ， 定 位 到 非 终结 符 卫 所 在 的 行 ， 然 后 ， 将 产生 式 
”“const” 列 。 对 于 产生 式 〈 例 如 TI 一 )， 则 以 


最 后 ， 在 所 有 空 单元 格 中 ， 填 入 “er”， 表 示 “ 出错 标 志 ”。 


至 此 ， 从 语法 分 析 器 设计 的 角度 重新 审视 先前 提 到 的 LL(1) 文 法 的 两 个 条 件 ， 角 
解 其 用 意 了 。 条 件 1 规定 LL(U) 文 法 必定 不 含 左 递归 ， 关 于 这 个 条 件 ， 笔 者 已 经 详 台 
左 递归 文法 为 什么 会 使 语法 
个 候选 式 的 First 集合 及 其 
条 件 的 必然 性 了 。 如 果 文 法 中 某 一 个 非 终结 符 的 各 个 候选 式 的 First 集合 及 
在 交集 ， 那 么 ， 在 构造 分 析 表 时 ， 必 定 会 有 六 


百 


况 )。 
的 。 


综 上 所 述 ， 笔 者 已 经 详细 阐述 了 LL(1) 语 汶 
Pascal 语法 分 析 器 源 代码 的 基础 。LL(1) 语 法 分 忆 
其 他 语法 分 析 法 更 适合 于 手工 构造 。 对 于 一 门 实 
5 较 烦 琐 ， 


集合 及 构造 预测 分 析 表 有 时 
FE 何事 物 都 存在 两 面 


否 任 人 


的 。 当 然 ， 任 


民 制 较 多 。 且 不 论 


=| 
三 


分 析 器 失效 。 而 


Follow 集合 


E 式 填 入 相应 单元 格 中 。 
不 难 理 
分 析 了 
条 件 2 规定 LL(1) 文 法 的 任意 一 个 非 终 结 符 的 各 
两 不 相交 ， 从 构造 分 析 表 的 过 程 分 析 就 不 难 理解 此 
其 Follow 集合 存 


F 突 〈 即 
然 ， 语 法 分 析 器 就 无 法 依据 分 析 表 选择 适合 的 候选 式 ， 这 是 语法 分 析 器 无 法 接受 


个 单元 格 中 填 入 多 个 产生 式 的 情 


分 析 法 的 相关 理论 与 技术 ， 这 是 剖析 Neo 
法 并 不 是 唯一 的 i 
际 的 程 


在 法 分 析 方 法 ， 但 是 ， 它 比 


序 设计 语言 而 言 ， 计 算 First、Follow 


a 
[a 


递归 的 文法 也 


码 实现 分 析 器 儿 


述 ， 读 者 可 以 参考 
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L 


二 
[一 


|， 


可 以 说 是 


Tf 器 。LR 分 析 法 是 最 著名 的 自 下 而 上 语法 分 忆 


有 译 原理 教材 。 


EA 


但 是 与 自 下 而 上 语法 分 析 法 的 分 析 表 相 比 还 是 简 
性 ，LL(D 语 涪 
j 程 序 设 计 语 言 的 文法 都 可 以 等 价 地 消除 左 递 归 ， 即 使 是 消除 了 左 
经 面目 全 非 ， 可 读 性 远 不 及 原始 的 文法 了 。 相 比 之 下 ， 自 下 而 上 语法 分 析 法 
对 文法 的 限制 远 小 于 自 上 而 下 语法 分 析 法 。 在 某 些 情 
非常 优美 的 语法 分 书 


析 法 也 存在 一 定 不 足 之 处 ， 就 是 文法 的 


思 


区 下 ， 自 下 而 上 语法 分 析 法 也 可 以 实现 
Tf 法 ， 除 了 不 适用 于 手工 编 


种 近乎 完美 的 语法 分 析 法 。 关 于 LR 的 更 多 内 容 ， 不 再 更 


BS 语法 分 析 器 的 实现 


文法 定义 

在 实现 Neo Pascal 
后 ， 广泛 应 用 于 教学 、 
标准 的 主要 制 
规范 及 约定 ， 并 完整 给 出 


3.3.1 


语法 分 析 器 前 ， 必 须 有 一 套 完备 的 语言 文法 
科研 等 领域 。1990 年 ，Pascal 语言 标准 
定 者 就 是 Pascal 语言 创始 者 Niklaus Wirth。 标 准 详细 阐述 了 Pascal 语言 的 相关 
述 形 式 。 在 过 去 的 二 十 年 中 ， 这 个 标准 


出 了 文法 的 EBNF 描 


泛 的 认同 ， 
考 这 个 标 ; 


了 原始 的 Neo Pascal 文法 定义 ， 


析 器 的 依据 ， 见 表 3-3。 


成 为 现代 Pascal 编译 器 日 
作 完 成 的 ， 同时 加 入 了 少量 量 现代 Delphi 语言 言 的 i 
只 给 出 Neo Pascal 的 LL(1) 文 法 定义 形式 ， 
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。 了 Pascal 


自 


1971 年 诞生 


(ISO 7185$) 正式 提出 。 这 个 


得 到 了 广 


的 设计 规范 。 笔者 在 设计 Neo Pascal 文法 时 ， 主 要 也 是 参 


吾 法 元 素 。 为 了 节省 


A 


局 


品 ， 笔 者 省 略 


这 是 构造 语法 分 


表 3-3 Neo Pascal 文法 


产生 式 左 部 产生 式 右 部 
001 星 序 程序 头 程序 块 002 . 
002 旦 序 头 program 标识 符 001( 标识 符 列表 ) ; 
003 旦 序 块 说 明 部 分 048 语句 部 分 
004 | 说 明 部 分 包含 文件 说 明 声明 部 分 
005 声明 部 分 
006 | 包含 文件 说 明 uses 093 标识 符 列表 094 ; 
007 | 声明 部 分 标号 声明 部 分 声明 部 分 1 
008 声明 部 分 1 
009 | 声明 部 分 1 常量 声明 部 分 声明 部 分 2 
010 声明 部 分 2 
011 | 声明 部 分 2 类 型 声明 部 分 声明 部 分 3 
012 声明 部 分 3 
013 | 声明 部 分 3 变量 声明 部 分 声明 部 分 4 
014 声明 部 分 4 
015 | 声明 部 分 4 095 过 程 函数 声明 部 分 
016 | 标号 声明 部 分 label 标识 符 003 标号 声明 列表 ; 
017 | 标号 声明 列表 ,标识 符 003 标号 声明 列表 
018 e 
019 常量 声明 部 分 const 常量 定义 ; 常量 声明 列表 
020 | 常量 声明 列表 常量 定义 ; 常量 声明 列表 
021 e 
022 | 常量 定义 标识 符 102 = 表达 式 004 
023 | 类 型 声明 部 分 type 类 型 定义 ”; 类 型 定义 列表 
024 | 类 型 定义 列表 类 型 定义 ; 类 型 定义 列表 
025 e 
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( 续 ) 
产生 式 左 部 产生 式 右 部 
026 | 类 型 定义 标识 符 006 = 类 型 
027 | 变量 声明 部 分 var 变量 定义 ; 变量 定义 列表 
028 | 变量 定义 列表 变量 定义 ; 变量 定义 列表 
029 e 
030 | 变量 定义 013 标识 符 列表 040 : 类 型 
031 | 过 程 函数 声明 部 分 过 程 声明 部 分 ; 过 程 函 数 声 明 部 分 
032 函数 声明 部 分 ; 过 程 函 数 声明 部 分 
033 e 
034 | 过 程 声明 部 分 过 程 头 ; 过 程 函 数 声明 部 分 1 
035 | 函数 声明 部 分 函数 头 ; 过 程 函数 声明 部 分 1 
036 | 过 程 函 数 声明 部 分 1 043 044 程序 块 047 
037 来 源 指 向 044 047 
038 | 来 源 指向 045 forward 
039 字符 串 常量 046 
040 | 语句 部 分 begin 语句 序列 end 
041 过 程 头 procedure 标识 符 041 形 参 列表 039 
042 | 函数 头 function 标识 符 042 形 参 列表 : 038 类 型 039 039 067 
043 | 形 参 列表 ( 参数 说 明 参数 部 分 ) 
044 E 
045 | 参数 部 分 ; 参数 说 明 参数 部 分 
046 E 
047 | 参数 说 明 035 标识 符 列表 036 : 类 型 
048 var 037 标识 符 列表 036 : 类 型 
049 | 类 型 015 基本 类 型 010 
050 015 函数 类 型 010 
051 015 构造 类 型 010 
052 015 指针 类 型 010 
053 015 字符 串 类 型 010 
054 015 标识 符 023 010 
055 | 基本 类 型 有 序 类 型 
056 无 序 类 型 
057 | 有 序 类 型 char 007 
058 boolean 007 
059 枚 举 类 型 
060 整数 类 型 
061 | 枚 举 类 型 (011 标识 符 列 表 ) 014 
062 整数 类 型 integer 007 
063 byte 007 
064 Shortint 007 
065 smallint 007 
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产生 式 右 部 


066 word 007 
067 longword 007 
068 cardinal 007 
069 | 无 序 类 型 real 007 
070 single 007 
071 | 函数 类 型 procedure 021 形 参 列 表 039 044 
072 function 022 形 参 列表 :038 类 型 039 039 044 
073 | 构造 类 型 数组 类 型 
074 记录 类 型 
075 集合 类 型 
076 文件 类 型 
077 | 数组 类 型 array 016 [ 数组 界限 数组 界限 列表 ] of 类 型 025 
078 | 数组 界限 列表 ， 数 组 界限 数组 界限 列表 
079 e 
080 | 数组 界限 整数 常量 017 .. 整数 常量 018 
081 | 集合 类 型 set 024 of 类 型 025 
082 | 记录 类 型 record 019 字段 列表 end 020 
083 | 字符 串 类 型 string 007 
084 | 字段 列表 字段 国定 部 分 字段 列表 
085 字段 可 变 部 分 字段 列表 
086 e 
087 | 字段 固定 部 分 标识 符 列表 : 类 型 ; 
088 | 字段 可 变 部 分 case 标识 符 029 : 类 型 of033 字段 可 变 部 分 1 034 end 030 ; 
089 | 字段 可 变 部 分 1 常量 031 : ( 字段 列表 ) 032 ; 字段 可 变 部 分 1 
090 e 
091 | 文件 类 型 file of 027 类 型 028 
092 | 指针 类 型 ^ 简单 类 型 
093 | 简单 类 型 标识 符 008 
094 char 009 
095 boolean 009 
096 integer 009 
097 byte 009 
098 shortint 009 
099 smallint 009 
00 word 009 
01 longword 009 
102 cardinal 009 
03 real 009 
04 single 009 
105 | 语句 序列 语句 行 语句 序列 
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( 续 ) 
产生 式 左 部 产生 式 右 部 
106 8 
107 | 语句 行 语句 ; 
108 | 语句 标识 符 061 标识 符 起 始 语 句 
109 其 他 语句 
110 8 
111 | 标识 符 起 始 语句 变量 1 053 := 表达 式 064 
112 : 062 语句 
113 过 程 调 用 语句 
114 | 过 程 调用 语句 (101 实 参 列表 ) 066 
115 2 005 
116 | 其 他 语句 goto 标识 符 063 
117 break 081 
118 continue 082 
119 begin 语句 序列 end 
120 while 071 表达 式 073 do 语句 072 
121 repeat 074 语句 序列 until 表达 式 075 
122 for 标识 符 076 := 表达 式 077 for 语句 后 部 
123 让 表达 式 068 then 语句 让 语句 后 部 070 
124 case 表达 式 084 of case 分 支 end 089 
125 asm 字符 串 常量 ,字符 串 常量 083 end 
126 with 090 变量 053 091 do 语句 092 
27 | for 语句 后 部 to 表达 式 078 do 语句 079 
28 downto 表达 式 080 do 语句 079 
129 | 让 语句 后 部 else 069 语句 
130 8 
131 case 分 支 常量 列表 087 : 语句 088 ; case 分 支 
132 E 
133 | 表达 式 项 表达 式 1 
134 | 表达 式 1 关系 运算 符 050 项 051 表达 式 1 
135 8 
136 | 项 因 式 项 1 
137 | 项 1 低 优先 级 运算 符 050 因 式 051 项 1 
138 8 
139 | 因 式 因子 因 式 1 
140 | 因 式 1 高 优先 级 运算 符 050 因子 051 因 式 1 
141 e 
142 | 关系 运算 符 本 
143 ~ 
144 和 
145 > 
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( 续 ) 
产生 式 左 部 产生 式 右 部 
46 < 一 
47 >= 
48 in 
49 | 低 优 先 级 运算 符 + 
50 = 
51 or 
152 XOT 
53 | 高 优先 级 运算 符 
154 / 
55 div 
56 mod 
157 shr 
58 shl 
159 and 
60 | 因子 变量 053 
61 常量 049 
62 ( 表达 式 ) 
63 nil 100 
64 +050 因子 052 
65 -050 因子 052 
66 not 050 因子 052 
67 @ 变量 053 060 
68 [096 表达 式 列表 097 ] 
69 | 变量 标识 符 054 变量 1 
70 | 变量 1 [098 表达 式 列表 099 ] 059 变量 1 
171 . 标识 符 056 变量 1 
72 ^058 变量 1 
73 过 程 调 用 语句 
74 | 表达 式 列表 表达 式 055 表达 式 列表 1 
75 | 表达 式 列表 1 ,表达 式 057 表达 式 列表 1 
176 8 
77 | 常量 列表 常量 085 常量 列表 1 
78 | 常量 列表 1 , 常量 086 常量 列表 1 
79 8 
80 | 实 参 列表 表达 式 065 实 参 列表 1 
81 8 
82 | 实 参 列表 1 ,表达 式 065 实 参 列表 1 
83 8 
84 | 标识 符 列表 标识 符 012 标识 符 列表 1 
85 | 标识 符 列表 1 ,标识 符 012 标识 符 列表 1 
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ee 


( 续 ) 
产生 式 左 部 产生 式 右 部 
186 一 | *# 
187 | 常量 一 | 整数 常量 
188 一 | 普通 形式 实数 常量 
189 一 | 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 
190 一 | 带 十 一 号 的 科学 记 数 形式 实 型 常量 
191 一 | 字符 串 常 量 
实践 证 明 ， 试 图 凭空 设计 一 个 优秀 的 语言 是 非常 困难 的 ， 一 门 经 典 的 语言 往往 是 从 某 些 


现存 的 语言 发 展 继承 而 来 的 。 例 妇 


0，C 语言 来 自 B 语言 、Pascal 来 自 Algol 等 。 不 过 ， 既 便 
不 开 程 序 设计 语言 相关 理论 的 文 


如 此 ， 设 计 一 门 严谨 且 完 美的 程序 设计 语言 并 不 简单 ， 离 
持 ， 这 是 一 个 复杂 的 研究 课题 ， 在 此 不 再 装 述 。 
下 面 对 Neo Pascal 的 文法 作 简单 说 明 。 
首先 ， 必 须 明 确 文法 的 非 终结 符 集 合 与 终结 符 集 合 。 为 了 使 文法 描述 形式 更 清晰 、 易 于 


-县 


里 


了 “标识 符 ”、“ 整 数 党 


总 国 . 2 
~ 


» 


理解 ， 笔 者 尽 可 能 使 用 中 文 词组 作为 非 终结 


“普通 形式 


户 和 器 


符 名 ， 符 号 
实数 常量 ”、 


- 国 . 2 


“不 


My 恒 2 


轴 旺 


组 成 部 分 。 


计算 验证 ，3.3.2 节 将 给 出 答案 。 
3.3.2 ”语法 分 析 表 
本 小 节 将 详 


区 


前 乡 


二 


， 笔 者 介 


造 及 结构 设计 。 
1. 构造 语法 分 析 表 


仅 从 文法 的 篇 幅 而 论 ，Neo Pascal 的 文法 的 确 比 先 前 所 分 析 的 任何 例子 都 要 长 得 多 。 


“ 带 十 一 号 的 科学 记 数 形式 实 型 党 
都 是 非 终 结 符 。 当 然 ， 除 了 非 终 结 符 与 2 之 外 ， 剩 下 的 
其 次 ， 读 者 可 能 会 对 文法 中 出 现 的 大 量 数字 感到 疑惑 。 笔 者 在 介绍 文 
及 这 些 数字 的 作用 ， 实 际 上 上， 它们 既 不 是 终结 符 也 不 是 非 终结 符 ， 
在 此 ， 读 者 不 必 深 究 ， 稍 后 笔者 将 解释 其 作用 。 
最 后 ， 从 文法 形式 来 看 ， 不 难看 出 出 
因子 ， 也 不 存在 左 递归 形式 。 至 于 First 集合 与 Follow 集合 是 否 存在 交 


HH 


“字符 串 常 量 
广 生 


符号 


里 


只 


然 ， 这 会 给 构造 其 语法 分 析 表 


TT 


| 


算得 到 文法 的 First 集合 及 Follow 集合 。 然 后 
表 。 其 中 ， 在 构造 语法 分 析 器 时 ， 计 算 文 法 的 First 集合 及 Follow 集 
要 熟练 掌握 其 计算 方法 ， 还 需要 有 相当 耐心 才 


分 析 Neo Pascal 语法 分 析 表 的 构造 过 
实际 语法 分 析 表 构造 过 程 中 的 一 些 常见 问题 。 


的 LL(1) 语 法 分 析 器 


文法 是 一 个 标准 的 LL(1) 文 法 。 它 既 不 存在 公 


人 


不， 


程 及 结构 设计 ， 


一 个 


三 | 
~ 


来 一 些 麻 烦 ， 不 过 ， 其 核心 方法 却 是 不 变 的。 首先 ， 准 确 
， 根 据 First 集合 及 Follow 集合 构造 语法 分 析 


与 符号 之 间 以 空格 分 隔 。 出 
带 十 一 号 的 科学 记 数 形式 实 型 
外 ， 其 他 含有 中 文 的 
就 是 文法 的 终结 
法 的 概念 时 并 未 提 
当然 ， 更 不 是 标 ; 


文法 中 除 


大口 


符号 


符 了 。 


住 文法 的 


共 左 
A 
云 


读者 可 以 先 尝 试 


同时 ， 还 将 着 手 解决 


I 象 模型 ， 或 者 说 只 是 一 个 伪 代 码 描述 的 
算法 而 已 ， 与 实际 的 语法 分 析 器 还 存在 一 定 差 异 。 其 中 ， 最 主要 的 问题 就 是 语法 分 析 表 的 构 


= 
Bi 


计 


全 


Et 


是 最 烦琐 的 。 不 仅 需 


侣 已 过 


用 元 


成 。 当 然 ， 读 者 也 可 以 应 


] 一 些 自动 生成 


工具 构造 语法 分 析 表 或 者 语法 分 析 器 。 有 关 自 动 生 成 工具 的 使 用 并 不 是 本 


者 可 以 参考 相关 教材 。 
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1， 笔者 给 出 Neo Pascal 文法 的 First 集合 及 Follow 集合 ， 供 读者 参考 。 


First 集合 见 表 3-4。 


表 3-4 Neo Pascal 文法 的 First 集合 


编 号 First 集合 
001 program 
002 program 
003 label const type var procedure function begin uses 
004 Uses 
005 label const type var procedure function begin 
006 Uses 
007 label 
008 const type var procedure function begin 
009 const 
010 type var procedure function begin 
011 type 
012 var procedure function begin 
013 Var 
014 procedure function begin 
015 procedure function begin 
016 label 
017 . 
018 8 
019 const 
020 标识 答 
021 8 
022 标识 
023 type 
024 标识 符 
025 8 
026 标识 
027 Var 
028 标识 多 
029 8 
030 标识 符 
031 procedure 
032 function 
033 8 
034 procedure 
035 function 
036 label const type var procedure function begin 
037 forward 字符 串 常量 
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( 司 i 
如 编译 器 设计 之 路 
当中 


( 续 ) 

编 2 First 集合 

038 forward 

039 字符 串 常量 

040 begin 

041 procedure 

042 function 

043 ( 

044 8 

045 

046 8 

047 标识 符 

048 Var 

049 char boolean ( integer byte shortint smallint word longword cardinal real single 

050 procedure function 

051 array record set file 

052 入 

053 string 

054 标识 符 

055 char boolean ( integer byte shortint smallint word longword cardinal 

056 real single 

057 char 

058 boolean 

059 ( 

060 integer byte shortint smallint word longword cardinal 

061 ( 

062 integer 

063 byte 

064 shortint 

065 smallint 

066 word 

067 longword 

068 cardinal 

069 real 

070 single 

071 procedure 

072 function 

073 array 

074 record 

075 set 

076 file 

077 array 
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〈 续 ) 

编 号 First 集合 

078 

079 8 

080 整数 常量 

081 Set 

082 record 

083 string 

084 标识 符 

085 Case 

086 8 

087 标识 符 

088 Case 

整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 型 常量 

090 8 

091 file 

092 从 

093 标识 符 

094 char 

095 boolean 

096 integer 

097 byte 

098 shortint 

099 smallint 

100 word 

101 longword 

102 cardinal 

103 real 

104 single 

105 标识 符 goto break continue begin while repeat for case asm with if ; 

106 8 

107 标识 符 goto break continue begin while repeat for case asm with if ; 

108 标识 符 

109 goto break continue begin while repeat for case asm with if 

110 8 

111 三 [5 

112 

113 (& 

114 ( 

115 8 

116 goto 

117 break 
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@ 
四 


编译 器 设计 之 路 


Cs) 


( 续 ) 
编 号 First 集合 
118 continue 
119 begin 
120 while 
121 repeat 
122 for 
123 下 
124 case 
125 asm 
126 with 
127 to 
128 downto 
129 else 
130 E 
i 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 型 常量 
字符 串 常量 
132 E 
1 标识 符 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 
付 串 音量 (nil+-not@[ 
134 
135 E 
136 标识 符 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形 式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 
型 常量 字符 串 常量 (nil+-not @ [ 
137 + 一 orxor 
138 E 
139 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形 式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 
EE (nil+—not@I[ 
140 * / div mod shr shl and 
141 E 
142 = 
143 <> 
144 < 
145 > 
146 <= 
147 >= 
148 in 
149 十 
150 和 
151 or 
152 XOr 
153 加 
154 / 
155 div 
156 mod 
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( 续 ) 
编 号 First 集合 

157 shr 

158 shl 

159 and 

160 标识 符 

jel _ 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 型 常量 
字符 串 常 量 

162 ( 

163 nil 

164 十 

165 = 

166 not 

167 @ 

168 [ 

169 标识 符 

170 [ 

171 

172 A 

173 (*/divmodshrshland+ -orxor=<><<=>>=in,enduntilelse do ofthen ] )to downto :=; 

En 标识 符 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 
型 常量 字符 串 常 量 (nil+-not@[ 

]%5 人 

176 E 

和 _ 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 型 常量 
字符 串 常 量 

178 3 

179 E 

1g0 标识 符 整数 常量 普通 形式 实数 常量 不 带 十 一 号 的 科学 记 数 形式 实 型 常量 带 十 一 号 的 科学 记 数 形式 实 
型 常量 字符 串 常量 (nil+-not@[ 

181 E 

182 

183 E 

184 标识 符 

185 

186 E 

187 整数 常量 

188 普通 形式 实数 常量 

189 不 带 十 一 号 的 科学 记 数 形 式 实 型 常量 

190 带 十 一 号 的 科学 记 数 形式 实 型 常量 

191 字符 串 常量 


表 3-4 的 


纺 


号 列 与 表 3-3 中 Neo Pascal 文法 的 编号 是 对 应 的 ， 即 为 产生 式 的 乡 


。 而 表 


员 


FP First 集合 


| 则 表示 对 应 产生 式 的 First 集合 。 


Follow 集合 见 表 3-5。 
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性 i 
如 编译 器 设计 之 路 
Ck) 


表 3-5 Neo Pascal 文 法 的 Follow 集合 


非 终 结 符 Follow 集合 
程序 
标号 声明 列表 
常量 声明 列表 type var procedure function begin 
类 型 定义 列表 var procedure function begin 
变量 定义 列表 procedure function begin 
过 程 函 数 声 明 部 分 begin 
形 参 列 表 ; 
参数 部 分 ) 
数组 界限 列表 ] 
字段 列表 end ) 
字段 可 变 部 分 1 end 
语句 序列 end until 
语句 ; end until else 


标识 符 起 始 语句 


; end until else 


过 程 调 用 语句 */divmod shr shland+ -orxor=<><<=>>=in,enduntilelse do ofthen ] )to downto :=; 
让 语句 后 部 ; end until 

case 分 支 end 

表达 式 1 , end until else do of then ] ) to downto ; 

项 1 =<><<=>>=in,enduntil else do of then ] ) to downto ; 

因 式 1 +- Orxor=<><<=>>=in,enduntil else do of then ] ) to downto ; 
表达 式 列 表 1 ] 

常量 列表 1 

实 参 列 表 ) 

实 参 列 表 1 ) 

标识 符 列表 1 二 站 


一 个 非 终 结 符 的 Follow 集合 是 唯一 的 ， 并 且 Follow 集合 仅 在 该 非 终 结 符 存在 空 字 候选 


式 时 才 使 用 ， 故 只 需 计 入 
如 果 读 者 有 手工 构造 


此 类 非 终结 符 的 Follow 集合 即 可 。 


Neo Pascal 的 Follow 集合 的 经 历 ， 一 定 会 发 现 Follow (if 语句 后 


部 ) ={; end until else} 与 表 3-5 的 Follow (站 语句 后 部 ) ={; end until} 描 述 不 尽 相 同 。 实 际 


上 ， 这 并 非 计 和 


彰 误 。 按 照 Follow 集合 


的 计算 方法 ，Follow (站 语句 后 部 )={; end until else} 
是 完全 正确 的 。 那 么 ， 到 底 是 什么 原因 导致 了 两 个 不 同 的 结果 呢 ? 这 就 是 文法 二 义 性 造成 


的 。 文 法 的 二 义 性 在 语法 分 析 表 构造 时 主要 的 表现 就 是 冲突 ， 即 一 个 单元 格 中 填 入 多 个 产生 


式 的 情况 。 如 果 
Follow 集合 与 其 相关 First 集合 将 存在 交集 ， 


Follow (if 语句 后 部 ) ={; end until else}， 则 非 终结 符 “ 
这 将 使 语法 分 析 表 出 现 冲 突 。 不 过 ， 


和 


放 语句 后 部 ”的 


值得 注意 


的 是 ， 这 并 不 意味 着 当 一 个 单元 格 中 填 入 了 多 个 产生 式 时 ， 就 必定 存在 冲突 。 
实际 上 ， 这 种 现象 并 不 罕见 ， 例 如 ，C、C++ 等 同样 存在 类 似 的 问题 。 在 学 习 C 语言 


时 ， 读 者 应 该 记得 C 语言 中 else 的 就 近 匹 配 原则 。 如 图 3-7 所 示 。 
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就 程序 的 形式 而 言 ， 以 上 两 个 流程 
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if (a>D 
if 3) <e CO—n 
a 一; 六 
N 
else < 全 一 
N 
Ee | [ar 
a) b) c) 
图 3-7 if-else 的 流程 示意 图 
a) 代码 b) 流程 图 1 c) 流程 图 2 


也 可 以 将 else 与 if (a==3) 匹配 。 显 然 ， 从 这 


式 推 


过 在 让 语句 结尾 处 增加 endif 关键 字 避 免 了 产生 二 义 性 。 

(2) 强制 约定 也 就 是 在 各 种 语义 中 约定 一 种 语义 是 ] 
种 强制 约定 ， 它 约定 else 
5 配 的 就 是 if (a==3)。 这 档 


C 语言 的 else 的 就 近 
kK 据 这 个 原则 ， 在 上 例 中 ， else 唯 
也 就 避免 了 二 义 性 。 


定 如 何在 语法 分 析 上 体现 呢 ? 无 非 就 是 在 非 终 结 符 “if 语句 后 部 ”过 到 终结 符 “ 
确定 选择 一 个 候选 式 。 这 样 ， 就 能 避免 二 义 性 了 。 那 么 ， 如 何 确定 选择 哪个 候选 式 进行 下 


步 推导 才能 满足 else 就 近 


计 语 言 不 允许 的 。 产 生 二 义 性 的 原 
编写 一 个 类 似 上 例 的 Pascal 程序 ， 然 后 ， 参 考 Neo Pascal 文法 
对 于 Neo Pascal 的 文法 非 终结 符 “if 语句 后 部 ” 遇 到 终结 符 “ 


导 都 是 1 


E 确 的 。 不 过 ， 
那么 ， 如 何 才 能 避免 二 义 诉 


两 个 流程 


因 。 


else” 时 ， 无 论 使 


读者 可 以 党 
导 验 证 此 程序 。 不 难 发 现 ， 
] 哪 个 候选 
生成 的 语法 树 是 完全 不 同 的 ， 这 就 表明 了 二 义 性 的 存在 。 
呢 ? 通常 有 两 种 解决 方式 ， 即 修改 文法 或 强制 约定 。 


图 应 该 都 是 正确 的 ， 既 可 以 将 else 与 这 (a>1) 匹配 ， 

图 的 分 析 ， 不 同 的 匹配 方式 对 程序 流 
程 及 运行 结果 是 完全 不 同 的 。 换 句 话说， 就 意味 着 程序 的 语义 是 存在 二 义 性 的 ， 这 是 程序 设 
因 无 非 就 是 程序 设计 语言 文法 本 身 的 原 


试 


(1) 修改 文法 也 就 是 通过 改变 if 语句 的 结构 来 避免 产生 二 义 性 。 例 如 ，BASIC 就 是 通 


匹配 原则 就 是 


全 已 
肛 


E 确 的 ， 将 其 他 的 语义 排除 。 例 如 ， 
只 能 匹配 之 前 最 近 的 一 个 if。 
# ， 强 制 排除 其 他 的 语义 ， 


同样 ，Pascal 语言 也 遵守 else 就 近 匹 配 原 则 ， 其 约定 与 C 语言 完全 一 致 。 那 么 ， 这 一 约 


else” 时 ， 


匹配 原则 呢 ? 最 简单 


的 处 理 方法 就 是 尝试 用 一 个 小 例 程 推导 一 棵 语 


法 树 ， 结 果 就 非常 明确 了 。 答 案 就 是 当 非 终结 


择 “if 语句 后 部 一 else 语句 ”这 个 候选 式 
必须 将 “else” 从 Follow “让 语句 后 部 ) 中 易 


似 证 语句 的 三 义 物 


这 个 工作 并 不 复杂 ， 
晶 ， 笔 者 


由 


除 。 


至 此 ，if 语句 的 二 义 性 问题 的 就 完美 解决 


LE 情 况 是 非常 特殊 的 。 二 义 性 既 不 利于 语言 的 表述 ， 也 不 利 ] 
计 。 故 在 设计 定义 一 门 程序 设计 语言 时 ， 应 该 尽 可 能 避免 二 义 性 。 


E 导 即 可 。 由 于 没有 选择 使 


符 “f 语句 后 部 ” 遇 到 终结 符 “else” 时 ， 


je 产生 式 推导 ， 因 


选 
此 


了 。 程 序 设 计 语 言 的 二 义 性 现象 并 不 常见 ， 


类 


-编译 器 的 设 


计算 得 到 了 Neo Pascal 的 First 集合 与 Follow 集合 后 ， 就 可 以 依 此 构造 语法 分 析 表 了 。 


贱 


了 


前 ， 笔 者 也 已 经 举例 详 述 了 其 


也 不 打 


2 


顾 名 思 义 ， i 


构造 过 程 ， 故 不 


给 出 完整 的 语法 分 析 表 ， 读 者 可 以 参考 本 书 的 相关 文档 。 
语法 分 析 表 的 结构 设计 
吾 法 分 析 表 就 是 一 张 静 态 二 维 表 ， 在 编译 器 运行 过 程 


中 仅 作 查询 操作 ， 其 


再 歼 述 。 同 时 ， 园 于 篇 


数 
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驴 编译 器 设计 之 路 


Se 


据 并 不 发 生 任 何 变 化 。 显 然 ， 应 用 静态 的 二 旨 
C/C++ 的 二 维 数 组 下 标 只 能 是 整 型 ， 因 


号 分 配 一 个 唯 


的 编 


号 〈ID )。 
文法 的 符号 主要 包括 终结 符 、 
文法 的 终结 符 就 是 词法 分 析 阶 段 的 单词 ， 因 


s、 非 


终 经 


| 


词 ID > 是 人 简 
2-4 中 ， 将 终结 符 


这 是 最 简单 且 有 效 的 方式 。 有 关 词 法 
编号 归 入 了 001 一 093 之 间 。 为 了 便于 终结 


此 


分析 中 


此 ， 有 必要 对 文法 的 


符 。 实 际 上 ， 


， 终 结 符 的 编号 完全 可 以 沿用 词法 分 析 中 的 单 
的 单词 ID ， 读 者 可 以 参考 表 2-4。 在 表 
符 的 适当 扩展 ， 可 以 从 100 开始 


7 


付 与 


作 数 组 存储 语法 分 析 表 是 比较 理想 的 。 


为 非 终结 符 编号 ， 如 表 3-6 所 示 。 那 么 ， 剩 下 的 * 只 需 编码 为 0 即 可 。 


表 3-6 Neo Pascal 文法 非 终结 符 表 


于 


进行 编码 ， 即 为 每 个 文法 符 


就 LL(1) 算 法 而 言 ， 不 难 发 现 ， 


ID 非 终结 符 ID 非 终结 符 D 非 终结 答 
100 程序 128 函数 头 56 过 程 调用 语句 
101 程序 头 129 形 参 列表 57 其 他 语句 
102 程序 块 130 参数 部 分 58 for 语句 后 部 
103 说 明 部 分 131 参数 说 明 59 让 语句 后 部 
104 包含 文件 说 明 132 类 型 60 case 分 支 
105 声明 部 分 133 基本 类 型 61 表达 式 
106 声明 部 分 1 134 有 序 类 型 62 表达 式 1 
107 声明 部 分 2 135 枚 举 类 型 63 项 

108 声明 部 分 3 136 整数 类 型 64 项 1 

109 声明 部 分 4 137 无 序 类 型 65 因 式 
110 标号 声明 部 分 138 函数 类 型 66 因 式 1 

111 标号 声明 列表 139 构造 类 型 67 关系 运算 符 
112 常量 声明 部 分 140 数组 类 型 68 低 优 先 级 运算 符 
113 常量 声明 列表 141 数组 界限 列表 69 高 优先 级 运算 符 
114 常量 定义 142 数组 界限 70 因子 

115 类 型 声明 部 分 143 集合 类 型 71 变量 

116 类 型 定义 列表 144 记录 类 型 72 变量 1 

117 类 型 定义 145 字符 串 类 型 73 表达 式 列 表 
118 变量 声明 部 分 146 字段 列表 74 表达 式 列表 1 
119 变量 定义 列表 147 字段 固定 部 分 75 常量 列表 
120 变量 定义 148 字段 可 变 部 分 76 常量 列表 1 
121 过 程 函 数 声明 部 分 149 字段 可 变 部 分 1 77 实 参 列 表 
122 过 程 声明 部 分 150 文件 类 型 78 实 参 列表 1 
123 函数 声明 部 分 151 指针 类 型 79 标识 符 列表 
124 过 程 函数 声明 部 分 152 语句 序列 80 标识 符 列表 1 
125 来 源 指向 153 语句 行 81 常量 

126 语句 部 分 154 语句 82 简单 类 型 
127 过 程 头 155 标识 符 起 始 语句 
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以 上 是 标准 文法 的 


析 
下 面 ， 


洪 h 尘 已 


I 


处 理 语法 分 析 表 的 表 项 设计 。 


( 非 终 结 符 、 


语法 分 析 | 第 3 间 | 


` 计 .一 


8 ) 的 多 


应 用 i 


前 国 


k 志 (在 Neo Pascal 吕 


文法 产生 式 或 出 错 林 


已 经 介绍 过 了 ， 语 法 分 析 表 的 表 项 i 


二 汀 


P 记 作 “-01”)。 那 么 ， 应 该 如 何 设计 语法 分 析 表 的 


表 项 结构 呢 ?1 
5 


于 文法 产 各 


E 式 是 一 串 符 号 


类 型 是 可 以 接受 
法 分 析 表 的 表 项 
为 合理 呢 ? 通 党 
储 产生 式 | 


的 。 


Ti 


类 型 并 不 是 
设计 一 张 单独 表格 来 存储 产生 式 及 其 编号 ， 而 在 i 
编号 或 者 出 错 标志 即 可 ， 如 图 


符号 
' 设 让 


不 过 ， 这 


的 集合 ， 


| 却 给 语法 分 析 表 带 来 了 大 量 的 元 
E 常 合理 的 。 那 么 ， 应 当 如 何 设计 ， 使 语法 分 析 表 的 表 项 结构 更 


因此 ， 将 语法 分 析 表 的 表 项 声明 为 字符 串 


pzr 万 和 人 


余 ， 字 符 


AN\? 


串 类 型 作为 语 


3-8 所 示 。 这 样 ， 就 可 


百 法 分 析 表 的 表 项 中 只 需 存 
以 将 语法 分 析 表 的 表 项 声明 


据 库 原 到 


理论 。 


图 3-8 是 语法 分 析 表 的 届 辑 结构 示意 图 ， 


为 整 型 。 与 字符 串 类 型 的 
库 设计 经 验 的 读者 不 


项 可 


日 比 ， 整 型 表 项 


的 见 余 度 较 小 ， 占 


想到 这 


设计 方式 与 数据 库 设计 的 关系 分 解 比 较 类 似 。 关 系 分 解 
课程 的 相关 知识 ， 读 者 可 以 参考 相关 书籍 。 第 4 章 还 会 涉及 一 些 数据 库 设 计 方 面 的 


j 的 空间 也 较 少 。 稍 有 数据 
是 数 


下 


昔 述 了 检索 语法 


分 析 表 的 过 程 。 


口 


这 里 ， 以 非 终 


结 符 “语句 ” 遇 到 终结 符 “ 标 识 符 ”为 例 说 明 。 首 先 ， 以 终结 符 的 编号 定位 列 ， 即 图 中 终结 
符 “ 标 识 符 ” 的 编号 为 001， 故 定位 表格 第 1 列 。 然 后 ， 以 非 终结 符 的 编号 定位 行 。 由 于 非 


终结 符 的 编号 是 从 1 


00 开始 的 ， 但 实际 


号 1 


将 非 终结 符 的 纺 


2 


号 减 去 起 始 编 


与 


语法 分 析 表 没有 必 
100 后 才 进 行 行 的 定位 。 图 


要 从 第 


口 


FP 非 


100 开始 存储 ， 因 此 ， 必 须 
终结 符 “ 语 句 ” 的 编号 为 


2 


154， 减 去 起 始 编号 100 为 54， 即 定位 到 第 54 行 。 这 样 ， 语 法 分 析 器 检索 得 到 108， 即 表示 


选择 编号 为 108 的 产生 式 进 行 下 一 步 推导 分 析 。 这 个 检索 过 各 


该 可 以 到 


E 解 。 


语法 分 析 表 
标识 符 


口 


产生 式 


并 不 复杂 ， 读 者 结合 图 


3-8 应 


表 


最 后 ,上 


导 过 程 始终 只 


来 讨论 产 
推导 的 过 程 。 语 法 分 析 器 先 将 栈 顶 非 


图 3-8 语法 分 析 表 与 产生 式 表 的 示意 


用 


| 


FE 式 表 的 存储 


终结 


SEH 


E 式 中 的 那些 奇 


s ) 的 编码 ， 这 上 


区 式 。 首 先 ， 读 者 仔细 思考 语法 分 析 器 选择 候选 式 进行 
符 弹出 ， 然 后 ， 将 候选 式 的 
涉及 候选 式 的 右 部 ， 而 没有 使 用 候选 式 的 左 部 。 故 方便 起 见 ， 只 需 将 产生 式 的 


右 部 逆序 入 栈 。 整 个 推 


右 部 存 入 产生 式 表 即 可 。 当 然 ， 产 生 式 也 同样 需要 编码 。 前 面 ， 已 经 给 出 了 标准 产 和 9 
的 三 类 符号 (终结 符 、 非 终结 符 、 
还 记得 Neo Pascal 文法 产 委 


ms 


日 


这 9 


怪 数字 。 这 上 


就 可 以 直 : 
笔者 暂 不 解释 这 些 数字 的 作用 


E 式 右 部 
然而 ， 读 者 应 该 


接 运 用 了 。 


易 编译 器 设 i 
i 十 之 路 
需 将 其 加 上 300 后 编码 即 可 。 根 据 以 上 产生 式 编码 的 规则 ， 图 3-8 中 编号 为 108 的 产生 式 的 
编码 为 “001361155”。 

综 上 所 述 ， 语 法 分 析 表 是 一 个 二 维 数 组 ， 数 组 元 素 的 类 型 为 整 型 。 当 元 素 值 大 于 或 等 于 
0 时 ， 表 示 该 元 素 值 是 产生 式 的 编号 〈( 即 产生 式 表 的 下 标 索 引 )， 否 则 表示 该 元 素 值 是 出 错 标 
志 。 产 生 式 表 是 一 个 字符 串 列 表 ， 每 个 字符 串 表 示 一 个 产生 式 的 编码 序列 。 在 产生 式 编码 序 
列 中 ， 可 以 将 三 个 ASCII 字符 作为 一 组 ， 用 于 表示 一 个 符号 的 编码 。 下 面 ， 笔 者 给 出 语法 分 
析 表 、 产 生 式 表 的 结构 声明 : 


【声明 3-1】 
int m_iParseTbl[120][120]; /语法 分 析 表 
Vector<string> m_szProductList; /产生 式 表 


下 面 简单 介绍 一 下 Neo Pascal 文法 中 的 那些 数字 的 作用 。 

前 面 提 到 过 语法 分 析 器 并 没有 统一 的 输出 形式 ， 其 中 较为 常见 的 输出 形式 是 语法 树 。 然 
而 ， 至 今 所 讨论 的 语法 分 析 器 似乎 并 没有 考虑 任何 输出 形式 。 构 造 的 语法 分 析 器 也 只 是 应 用 
于 验证 输入 源 程 序 的 语法 正确 性 而 已 ， 显 然 ， 这 与 语法 分 析 器 的 目标 是 不 符 的 。 而 Neo 
Pascal 中 的 数字 正 是 实现 语法 分 析 器 输出 的 重要 元 素 一 一 语义 子 程序 编号 。 

什么 是 语义 子 程序 呢 ? 顾名思义 ， 就 是 完成 语义 分 析 处 理 的 子 程序 。 文 法 不 同位 置 的 语 
义 几乎 是 完全 不 同 的 ， 例 如 ，for 语句 的 语义 与 让 语句 的 语义 是 完全 不 同 的 。 语 义 分 析 就 必 
须根 据 不 同 的 文法 位 置 完 成 相应 的 分 析 工 作 。 通 常 ， 根 据 语义 分 析 的 需求 ， 在 文法 的 适合 位 
置 插入 相应 的 语义 子 程序 ， 以 实现 语义 分 析 的 目的 。 在 语法 分 析 过 程 中 ， 由 语法 分 析 器 根据 
输入 源 程 序 调用 相应 的 语义 子 程序 ， 完 成 相应 的 语义 分 析 工 作 。 

那么 ，Neo Pascal 文法 中 的 数字 正 是 语义 子 程序 的 编号 。 在 此 ， 读 者 不 必 深 究 语 义 分 析 
的 理论 及 语义 子 程序 的 实现 ， 笔 者 将 在 第 4~6 章 中 详细 讨论 。 只 需 理解 文法 中 的 数字 是 语 
义 子 程序 的 编号 ， 将 其 看 成 产生 式 的 一 种 特殊 的 符号 即 可 。 它 与 其 他 终结 符 或 非 终结 符 一 
样 ， 在 语法 分 析 过 程 ， 同 样 需要 压 入 分 析 栈 。 然 而 ， 当 分 析 栈 栈 顶 元 素 为 语义 子 程序 的 编号 
时 ， 语 法 分 析 器 则 将 其 出 栈 并 调用 相应 的 语义 子 程序 ， 从 而 实现 语义 分 析 功 能 。 

不 难 发 现 ， 在 Neo Pascal 文法 中 ， 语 义 子 程序 的 编号 与 终结 符 的 编号 存在 一 定 的 冲突 ， 
即 存在 相同 编号 的 现象 。 为 了 避免 同 号 冲突 ， 在 构造 语法 分 析 表 时 ， 将 语义 子 程序 的 编号 加 
上 300 以 避免 冲突 。 而 在 语法 分 析 过 程 中 ， 当 分 析 栈 栈 顶 元 素 为 语义 子 程序 的 编号 时 〈 即 栈 
顶 元 素 的 值 大 于 或 等 于 300) ， 只 需 将 此 编号 值 减 去 300 后 调用 相应 的 语义 子 程序 即 可 。 各 
类 符号 的 编号 范围 如 表 3-7 所 示 。 


表 3-7 各 类 符号 的 编号 范围 


编号 范围 符号 编号 范围 符号 编号 范围 符号 编号 范围 符号 
0 e 1 一 93 终结 符 100~182 非 终 结 符 300~420 语义 子 程 序 编号 


3.3.3 源 代码 实现 
前 面 已 经 介绍 了 语法 分 析 表 的 构造 及 逻辑 结构 的 设计 ， 这 是 语法 分 析 器 的 核心 ， 它 将 指 


导 与 控制 语法 分 析 器 的 工作 流程 。 了 解 了 语法 分 析 表 的 作用 后 ， 阅 读 Neo Pascal 的 语法 分 析 
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模型 的 扩充 而 已 。 语 没 


预测 表 分 析 器 


昌 
on 


分 析 器 初始 化 


将 文法 开始 符 压 入 分 析 栈 


分 析 栈 不 为 空 
输入 单词 流 未 读 完 


将 分 析 栈 栈 顶 元 素 弹 
出 ， 并 置 入 ivVal 中 


iVal==0 
表示 iVal 是 空 字 


<0 


iVal 
表示 iVal 是 终结 符 编号 


iVal 是 否 与 输入 单词 相同 


于 


读 取 下 一 个 给 入 单词 


程序 3-3 Syntax.h 


1 classCsyntax 


语法 分 析 | 第 3 章 | 


器 的 源 代码 就 非常 容易 了 。 实 际 上 ，Neo Pascal 语法 分 析 器 只 是 3.2.3 节 中 介绍 的 LL(1) 算 法 
分 析 器 的 整体 流程 如 图 3-9 所 示 。 


ival>=100&&iVal<300 
表示 iVal 是 非 终结 符 编号 


检索 语法 分 析 表 ， 将 结 
果 值 置 入 iTmp 


iTmp==-1 


将 imp 对 应 的 产生 式 逆 
向 加 入 分 析 栈 


一 ival>=300 
表示 ival 是 语义 子 程序 编号 


T 
调用 相应 的 语义 子 程序 


分 析 栈 不 为 空 或 
输入 单词 流 未 读 完 


分 析 器 算法 流程 设计 


图 3-9 Neo Pascal 语法 
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BS i i 
罗 、 ”编译 器 设计 之 路 
ee 


一 一 
一 局 .OCP Dh 


一 一 一 
上 hiMP 


{ 


private: 


int m_iParseTbl[120][120]; 
vector<string> m_szProductList; 
stack<int> m_ParseStack; 

void EnStack(string szProduct); 
bool DeStack(int &iTop); 

void ClearStack(); 


public: 


”3 


CSyntax(void); 
bool SyntaxParse(); 
~CSyntax(void); 


程序 3-4 Syntax.cpp 
bool CSyntax::SyntaxParse() 
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{ 


int Row=0; 

int 1Col=0; 

int 1Val=0; 

iListPos=0; 

ClearStack(); 

m_ ParseStack.push(100); 


// 语 法 分 析 表 

/产生 式 列 表 

/分 析 栈 ， 即 语法 分 析 栈 

// 将 产生 式 右 部 符号 逆向 推 入 分 析 栈 
/将 分 析 栈 顶 符 号 弹出 ， 置 入 iTop 变 


/将 分 析 栈 清空 ， 


初始 化 时 使 用 


// 语 法 分 析 器 主 控 函数 


while(!m ParseStack.empty() && iListPos<TokenList.size()) 


if (DeStack(iVal)) 


{ 
if (iVal==0) 


下 
1 


continue; 


} 


if (iVal<100) 
{ 


if Val=—TokenList.at(iListPos).m iKind) 


{ 


1iListPos+ 十 ; 


EmitError(" 语 法 错误 " 


break:; 


= 一 


} 


if (iVal>=100 && iVal<300) 


{ 


,TokenList.at(iListPos-1)); 


iCol=TokenList.at(iListPos).m iKind; 


耳 


最 


语法 分 析 


iRow=1Val-100; 
int iTmp=m iParseTbl[iRow][iColl; 


if ITmp==-1) 

{ 
EmitError(" 语 法 错误 ",TokenList.at(iListPos-1)); 
break:; 

} 

Else 

{ 


EnStack(m szProductList[iTmp]); 
1 
} 


} 


if (iVal>=300) 


{ 
if (!FuncList[iVal-300]()) 
break:; 
} 
} 
} 
if (m ParseStack.empty() && iListPos==TokenList.size()) 
return true; 
else 
return false; 


第 3 行 :临时 变量 (分 析 表 行 号 ) 初始 化 。 

第 4 行 : 临时 变量 (分 析 表 列 号 ) 初始 化 。 

第 5 行 : 临时 变量 (存储 分 析 栈 栈 顶 符号 ) 初始 化 。 
第 6 行 : 输入 单词 流 的 当前 读 取 指 针 〔( 即 当前 读 取 位 置 )。 
第 7 行 
第 8 
第 9 


了 : 分 析 栈 清空 。 
行 : 将 文法 开始 符 压 入 分 析 栈 。 
了 : 循环 结构 条 件 为 分 析 栈 为 空 或 单词 流 读 取 完毕 。 


第 11 行 ， 分析 栈 栈 顶 符号 出 栈 ， 置 入 ival 中 。 

第 13 一 16 行 : 栈 顶 符号 为 空 字 ， 不 作 处 理 ， 直 接 进行 下 一 步 分 析 。 

第 17~28 行 ， 栈 顶 符号 为 终结 符 ， 需 要 判断 当前 输入 单词 与 iVal 是 否 相等 。 如 果 相 
等 ， 则 读 取 指 针 后 移 一 个 字符 ， 即 读 取 下 一 个 单词 ， 如 果 不 相等 ， 则 语法 分 析出 错 。 

第 29~43 行 : 栈 顶 符号 为 非 终结 符 ， 则 根据 该 非 终结 符 与 当前 单词 检索 语法 分 析 表 。 
如 果 检 索 结果 为 -1， 则 表示 当前 状态 下 不 允许 读 取 当前 单词 。 如 果 检 索 结果 不 为 -1， 则 将 产 


生 式 右 部 符号 逆序 压 入 分 析 栈 。 
第 44 一 48 行 : 调用 相应 的 语义 子 程序 ， 这 里 使 用 函数 指针 的 数组 实现 。 
返回 值 为 bool 类 型 。 如 果 语 义 子 程序 返回 tue， 则 表示 语义 分 析 了 


无 参 函 数 ， 


第 3 章 | 


语义 分 析出 错 。 
第 $1 一 54 行 : 分 析 栈 为 空 且 输入 单词 流 读 取 完毕 ， 即 while 是 正常 结束 的 ， 则 表示 语 


语义 子 程序 是 
FE 确 ， 否 则 表示 
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B R i 
四 、 编译 器 设计 之 路 
ee 


法 


产 


m_ ParseStack.push(atoi(szProduct.substr(i,3).c_str())); 


分 析 正 确 ， 否 则 语法 分 析出 错 。 
程序 3-5 Syntax.cpp 
1 voidCSyntax::EnStack(string szProduct) 
2 | 
3 if (szProduct.length()<=0) 
4 { 
5 return; 
6 } 
了 for(int i=szProduct.length()-3;i>=0;i=1-3) 
8 
9 
10 } 
Wl } 
12 void CSyntax::ClearStack() 
I 1{ 
14 m_ ParseStack.c.clear(); 
Is} 
16 bool CSyntax::DeStack(int &iTop) 
| 7 四 | 
18 if (m ParseStack.empty()) 
19 return false; 
20 else 
21 { 
2 iTop=m_ ParseStack.top(); 
23 m_ ParseStack.popO); 
24 return true; 
25 } 
26 } 


第 1 行 : EnStack 函数 的 作用 是 将 产生 式 右 部 


rr 


付 忆 


生 式 字符 串 ， 其 中 每 3 个 字符 表示 一 个 符号 的 编号 。 


第 3 行 : 
第 7 一 10 


如 果 产 生 式 字符 串 为 空 ， 贝 
行 : 截取 产生 式 字符 串 中 相应 符号 的 编号 ， 


| 无 需 处 理 。 


第 12 行 : ClearStack 函数 的 作用 是 ; 


第 16 行 : DeStack 函数 的 作用 是 将 分 析 栈 的 栈 项 


本 深入 学 习 


自 20 世纪 五 六 十 年 代 以 来 ， 语 法 分 析 器 的 构造 一 直 是 编译 技术 中 最 炙手可热 的 话题 之 


从 


青空 分 析 栈 。 


趋 完 美 ， 但 是 ， 这 似乎 并 没有 打消 人 们 下 


区 式 语 言 至 


万 夺 上 口 


逆向 压 入 分 析 栈 。 参 数 szProduct 就 是 


并 将 其 转换 为 整 型 值 后 推 入 分 析 栈 。 


符号 


红 


出 ， 并 置 入 iTop 变量 中 。 


完 的 热情 。 无 论 是 从 构造 技术 ， 还 是 


论 而 言 ， 关 于 语法 分 析 器 的 资源 都 是 最 丰富 的 。 从 早期 的 递归 下 降 分 析 器 到 近 


乎 完美 的 LR(O) 分 析 器 ， 它 承载 的 更 像 是 一 部 完整 的 编译 技术 发 展 史 。 
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与 词法 分 析 器 的 构造 类 似 ， 自 


动 生成 技术 同样 适用 于 构造 语法 分 析 器 。 与 Lex 完美 结合 
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的 就 是 Yacc (yet another compiler compiler) ， 它 是 基于 LR 分 析 法 实现 的 自动 生成 工具 。 如 


果 读 者 需要 了 解 更 多 关于 Yacce 的 信息 ， 可 以 访问 http:/dinosaurcompilertools.net/yacc/。 


这 里 ， 笔 者 推荐 一 个 更 有 效 的 自动 生成 工具 一 一 ANTLR。 从 某 种 程度 而 言 ，ANTLR 可 
能 比 Yacc 更 实用 ， 只 不 过 ANTLR 的 诞生 年 代 较 晚 ， 因 此 ， 不 如 Yacc 那样 著名 。ANTLR 


是 基于 LL(K) 分 析 法 实现 的 自动 生成 工具 ， 它 生成 的 语法 分 析 器 可 读 性 较 好 ， 而 且 执 行 效率 


也 不 错 ， 还 可 以 自动 生成 AST。 在 现代 编译 器 设计 中 ，ANTLR 已 经 逐渐 被 设计 者 接受 。 读 
者 可 以 访问 ANTLR 的 主页 http://www.antlr.org/， 以 获取 更 多 的 资料 。 当 然 ， 与 Yacc 相 比 ， 


ANTLR 凸现 的 是 其 灵活 性 ， 而 Yacc 就 显得 更 学 术 派 。 


、 语 言 与 机 器 : 计算 机 科学 理论 导论 


2、Yacc: Yet Another Compiler Compiler 


3、Bison, The YACC-compatile Parser Generator 


4、A programmer-friendly LL(1) parser generator 


5、 形 式 语言 与 自动 机 导论 


Thomas A. Sudkamp 机 械 工业 出 版 社 


说 明 : 这 本 书 重 点 介绍 了 形式 语言 相关 的 话题 ， 包 括 上 下 文 无 关 文法 、 下 推 自动 机 、 图 灵机 、 乔 姆 斯 基层 次 、LL(k) 文 法 等 。 


Johnson 


说 明 : 可 以 访问 http://dinosaur.compilertools.net/yacc/， 以 获得 yacc 的 更 多 信息 


Donnelly, R. Stallman 


说 明 : 可 以 访问 http:/www.gnu.org/software/bison/manual/， 以 获得 Bison 的 更 多 信息 。 


D. Grune, C. Jacobs 


说 明 : 这 是 一 个 基于 LL(1) 实 现 的 语法 分 析 器 的 生成 器 ， 可 以 访问 http:/www.cs.vu.nl/~ceriel/LLgen.html， 以 获取 更 多 的 信息 。 


Peter Linz 机 械 工 业 出 版 社 


说 明 : 这 是 形式 语言 理论 方面 的 经 典 著作 ， 目 前 被 很 多 国内 高 校 选 作 形 式 语言 课程 的 教材 。 


7、 Report on the Algorithmic Language Algol 60 


8、 Three models for the description of language 


说 明 ; 论文 详细 阐述 了 文法 描述 形式 在 Algol 60 设计 中 的 应 用 。 


6、Bibliography on Syntax Error Handling in Language Translation Systems J. A. Dain 
说 明 : 论文 详细 阐述 了 语法 分 析出 错 处 理 的 相关 技术 ， 可 以 访问 http://compilers.iecc.com/comparch/article/91-04-050。 


Peter Naur，et al. 


N. Chomsky 


9、 编 译 原理 及 实践 


> 实践 与 思 


1 本 书 详细 阐述 了 LLQ) 分 析 法 ， 不 过 ，LL(1) 分 析 法 并 不 能 解决 所 有 上 下 文 无 关 文 法 


说 明 : 该 书 描述 了 一 个 小 型 编译 器 实例 一 一 TINY， 


说 明 : Chomsky 在 论文 中 详细 阐述 了 上 下 文 无 关 文法 的 相关 内 容 ， 当 然 ， 其 最 初 的 目的 只 是 作为 自然 语言 研究 的 一 个 分 


Kenneth C. Louden 机 械 工 业 出 版 社 


与 本 书 的 Neo Pascal 是 一 脉 相 承 的 ， 值 得 初学 者 研究 。 


的 语法 分 析 问 题 。 请 读者 试想 C 语言 中 哪些 语法 机 制 是 LL(1) 分 析 法 不 能 实现 的 。 


2. 本 书 没 有 考虑 出 错 处 理 及 恢复 机 制 ， 请 读者 试想 如 何 修改 与 完善 Neo Pascal， 以 便 


NH1 
4 


UU 误 恢 复 机 制 。 
. 试 比较 LL(1) 与 递归 下 降 分 析 法 的 优 和 劣 ， 并 构造 一 个 分 析 器 ， 用 于 识别 例 3-3 所 
4. 应 用 词法 分 析 、 语 法 分 析 的 相关 知识 ， 设 计 一 个 简单 的 整 型 计算 器 ， 要 求 考虑 正确 
的 结合 律 及 优先 级 。 
5. 请 读者 为 如 下 前 缀 表达 式 文 法 设计 一 个 语法 分 析 器 。 
expr = number | (op seq) 
;+ 
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B ER i 
辐 、 编译 器 设计 之 路 
ee 


seq 一 expr Seq expr | expr 


前 级 表达 式 是 一 种 常用 的 形式 ， 例 如 ， 表 达 式 58-39*41 的 前 级 形式 为 (- 58 (* 39 41))。 
6. 语法 树 是 一 种 较为 常见 的 中 间 表 示 形 式 ， 请 读者 尝试 为 Neo Pascal 构造 一 个 语法 树 
生成 模块 。 


Ee 大 师 风 采 一 一 Edsger Wybe Dijkstra 


Edsger Wybe Dijkstra: 荷兰 著名 计算 机 科学 家 。1930 年 5 月 11 日 出 生 于 荷兰 独特 丹 ， 
父亲 是 一 位 化 学 家 ， 而 母亲 是 一 位 数学 家 。1948 年 ， 他 考 入 了 Leyden 大 学 ， 并 取得 了 学 士 
学 位 。1951 年 9 月 ， 他 参加 了 英国 剑桥 大 学 开设 的 一 个 电子 计算 机 程序 设计 的 课程 ， 讲 师 是 
著名 的 M. V Wilkes。 这 次 学 习 为 他 的 职业 生涯 打下 了 基础 。 从 1984 年 到 2000 年 ，Dijkstra 
在 德 克 萨 斯 州立 大 学 奥斯汀 分 校 计算 机 科学 学 院 任 全 职 教授 。 

Dijkstra 与 Donald E. Knuth 并 称 为 “20 世纪 最 伟大 的 计算 机 科学 家 ”。Dijkstra 在 程序 
设计 语言 、 编 译 技术 、 操 作 系统 、 数 据 结 构 与 算法 、 程 序 设 计 、 分 布 计算 、 形 式 验 证 等 众多 
领域 都 有 非常 杰出 的 贡献 ， 其 中 ， 最 著名 的 研究 成 果 如 下 : 

@ Algol 600。 

@ 操作 系统 THE。 

@ 信号 量 和 PV 原 语 。 

@ 最 短路 径 算 法 。 

由 于 在 Algol 语言 及 编译 器 方面 的 成 就 ，Dijkstra 获得 了 1972 年 图 灵 奖 。Dijkstra 还 
是 分 布 计算 研究 的 先驱 。 

2002 年 8 月 6 日 ，Dijkstra 病逝 于 荷兰 家 中 ， 享 年 72 岁 。 
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第 4 章 ”符号 表 系统 


7 think conventional languages are for the birds. They're just extensions of the Von Neumann 


computer, and they keep our noses in the dirt of dealing with individual words and computing 


addresses, and doing all kinds of silly things like that, things that we've picked up from programming 


for computers; we've built them into programming languages; we've built them into Fortran; we've 


built them in PL/l;we've built them into almost every language. 


14 语义 分 析 概 述 


4.1.1 程序 设计 语言 的 语义 


——John Backus 


语言 的 


要 组 成 部 分 之 


门 语言 ， 


仅 


万 夺 口 


付 宁 


语义 (semantic) 是 i 
的 。 虽 然 语法 规则 能 够 描述 语言 各 个 
的 意义 及 其 作用 。 
对 于 语言 本 身 及 寺 
果 和 暂且 不 考虑 形式 上 的 
在 语法 分 析 器 看 来 ， 它 们 只 是 源 语言 的 合法 句子 而 已 。 由 
需要 一 种 元 素来 补充 说 
实际 上 ， 语 言 的 语义 
身 作 了 一 定 的 限制 。 与 语法 类 似 ， 语 义 同 检 
角度 而 言 , “我 走 饭 。” 这 个 句子 是 完整 正确 
法 规则 。 不 过 ， 在 日 常 4 


、 


L 


3 


i 
2 


的 。 


之 间 的 组 合 规 律 ， 但 是 
换 句 话说 ， 仅 有 语法 规则 的 语言 只 不 过 是 一 系列 
其 使 用 者 是 没有 任何 意义 的 。 当 然 ， 语 言 的 表述 能 力也 根本 无 从 谈 起 了 。 如 
区 别 ， 仅 从 语法 角度 而 言 ，if 语句 和 for 语句 是 不 存在 任何 差异 的 。 
于 语法 描述 能 力 的 
明 语言 的 含义 ， 这 种 元 素 就 是 语言 的 语义 。 

是 一 组 规则 的 集合 。 它 们 既 可 用 于 描述 语言 的 含义 ， 也 对 语言 本 
FE 价 语言 句子 合法 性 的 功能 。 例 如 ， 从 语法 
它 完全 符合 汉语 


FE 活 中 ， 绝 不 会 认为 这 是 一 个 正确 的 句子 。 


各 终 


有 词法 、 语 法 规则 是 不 够 
无 法 说 明 各 种 符号 组 合 


Ar _D 


符号 


66 一 


谓 


因为 


本 


的 有 序 序列 而 已 ， 这 


局 限 愧 


五 6 十 2 


和 目 . 


E， 所 以 就 


主语 十 谓语 十 宾语 ”的 语 


与 宾语 


“ 饭 ” 的 搭配 是 不 符合 汉语 语义 的 ， 所 以 该 句子 是 不 具备 任何 实际 含义 的 。 这 里 ， 以 汉语 名 


已 


子 为 例 ， 则 在 帮助 读者 深刻 理解 语法 与 语义 的 关 
复杂 得 多 。 无 论 是 人 类 学 习 语 言 ， 还 是 计算 机 处 理 自 
义 。 以 英语 学 习 为 例 ， 中 国学 生 最 精通 的 可 能 就 是 英语 语法 了 ， 
英语 的 人 ,但 是 习惯 表达 、 国 


， 实 际 上 ， 自 
然 语言 ， 主 要 的 障碍 就 是 来 自 
程度 甚至 超过 
定 搭配 等 却 是 学 习 英 语 的 最 大 障碍 。 很 多 时 候 ， 中 


然 语言 的 语义 远 比 这 个 例子 


精通 


复杂 的 语 
了 和 母语 是 


学 生 无 法 


写 出 地 道 的 英语 文章 绝对 不 是 因为 语法 不 过 关 ， 而 是 由 于 汉语 习惯 思维 所 致 。 通 常 ， 学 生 会 
将 汉语 的 习惯 表达 直接 翻译 成 英语 ， 并 不 考虑 使 用 英语 的 习惯 表达 来 描述 。 由 于 人 类 至 今 也 
无 法 精准 地 描述 自然 语言 的 语义 ， 当 然 ， 也 就 无 法 通过 一 个 算法 让 计算 机 理解 与 处 理 人 类 的 
自然 语言 。 在 计算 机 科学 中 ， 自 然 语言 理解 是 人 工 智 能 的 一 个 重要 分 支 ， 这 里 ， 就 不 再 深入 
讨论 。 下面， 笔者 将 重点 关注 程序 设计 语言 的 语义 与 编译 器 设计 的 联系 。 

早 在 20 世纪 60 年 代 ， 语 法 与 语义 的 概念 就 被 加 以 区 分 了 。 在 程序 设计 语言 领域 ， 


Algol 60 修订 报告 首次 明确 了 语法 、 语 义 的 概念 ， 使 用 BNF 定义 语言 的 语法 ， 而 使 月 


自然 语 


B ER i 
辐 、 编译 器 设计 之 路 
ee 


言说 明 及 实例 分 析 等 非 


式 化 方式 
Backus 说 : 现在 我 们 已 经 有 办 法 严格 


述 语 言 的 语义 。 


在 讨论 Algol 60 时 ，BNF 的 创立 者 
定义 语言 的 语法 了 ， 和 希望 今后 不 久 就 能 严格 定义 语言 的 


语义 。 计 算 机 科学 家 随即 对 程序 设计 i 


;五 尘 ] 五 
TD 百 ] 二 


义 描 述 方法 ， 以 解决 程序 设计 


年 的 努力 ， 形 式 语义 研究 取得 了 习 


语义 等 理论 与 方法 。 虽 


里 


EE 大 的 3 


然 形式 语义 研究 硕果 累累 ， 但 是 迄今 为 J 


在 言语 义 展 开 了 深入 的 下 
义 定 义 及 语义 分 析 器 自 
展 ， 提 出 了 指称 语义 、 操 作 语义 、 代 数 语义 、 公 理 


究 ， 试 图 开发 一 种 形式 化 的 语 
动 生成 等 一 系列 问题 。 经 过 十 多 


日 


上 还 没有 开发 出 一 种 完美 、 功 


能 强大 、 易 于 理解 与 使 用 的 语义 定义 系统 。 
计 的 意义 是 有 限 的 。 不 过 ， 在 不 和 久 的 将 来 ， 有 理 | 


与 自动 生成 带 来 质 的 飞跃 。 


当然 ， 读 者 不 要 将 语法 与 语义 视 作 两 个 完全 了 
题 一 样 ， 语 法 与 语义 之 间 并 不 存在 非常 严格 的 界线 。 在 一 些 特殊 避 


因 


此 ， 在 目前 状况 下 ， 形 式 语义 理论 对 编译 器 设 


立 的 范畴 。 


相信 形式 语义 学 的 发 展会 给 编译 器 的 设计 


就 像 计算 机 科学 中 许多 经 典 问 
4 况 下 ， 两 者 是 可 以 互相 转 


化 的 ， 这 主要 是 取决 于 文法 的 定义 。 


4.1.2 语义 分 析 与 IR 生成 的 


任务 


读者 已 经 知道 ， 编 译 器 前 端 3 


FE 要 包 提 


法 分 析 、 语 法 分 析 完 全 不 同 ， 从 算法 、 构 造 了 
自动 生成 工 


有 比较 成 熟 的 通用 算法 ， 也 没 


有 具 


mk 


析 与 IR 生成 模块 可 能 也 是 编译 器 前 端 较 复杂 的 模块 ， 它 涉及 
本 书 将 在 后 续 章节 中 详 旨 
王 务 是 把 输入 程序 翻译 为 等 价 的 目 


类 型 系统 等 高 级 话题 ， 
编译 器 的 


分 析 。 


些 宽泛 的 文法 可 能 将 语法 问题 滞留 到 语义 分 析 阶段 。 


5 词法 分 析 、 语 法 分 析 、 语 义 分 析 与 生成 。 与 记 
[ 具 等 角度 而 言 ， 语 义 分 析 与 人 生成 模块 既 没 
一 般 都 是 由 手工 编码 构造 的 。 因 


此 ， 语 义 分 
表 设 计 、 中 间 代 码 设计 、 


Ar 品 


付 宁 


标 程序 ， 所 谓 “ 等 价 ” 指 的 就 是 语义 相同 ， 


也 就 是 说 ， 尽 管 两 个 程序 的 语法 结构 与 形式 完全 不 同 ， 但 它们 所 表述 的 含义 与 运行 的 结果 必 


经 暴 乡 


一 [一 


定 是 相同 的 。 从 


(1) 对 每 个 语法 结构 进行 静态 


(2) 如 果 静 态 语义 IE 太 
由 于 两 者 之 间 的 界线 可 能 是 上 


角 ， 就 进行 程 


Me 


通 


上 较 模 糊 的 ， 


本 书 讨论 的 语义 分 析 通 常 是 
check) 就 是 指 在 编译 阶段 进行 


义 分 析 必 须 
(2) 语句 相关 性 
(3) 一 致 特 


检查 。 例 如 ， 


了 出错 提示 。 再 如 ， 函 数 实 参 的 类 型 必须 与 形 


检查 。 例 如 ， 同 一 


指 月 


译 技术 来 说 ， 语 义 分 析 与 IR 生成 模块 主要 完成 如 下 两 项 任务 : 
态 语义 检查 ， 检 查 符合 语法 结构 的 程序 是 否 具有 实际 含义 。 


序 的 翻译 ， 即 生成 等 价 的 I 代 。 
常 ， 编 译 器 会 将 它们 组 织 在 一 遍 中 完成 。 

态 语 义 检 查 。 所 谓 “ 静 态 语义 检查 ”(static semantic 
的 语义 错误 检查 ， 主 要 涉及 如 下 几 个 方面 : 
(1) 类 型 检查 。 例 如 ，C 语言 中 的 “%” 运 算 符 的 两 个 操作 数 类 


型 只 能 


是 整 型 ， 否 则 语 


参 类 型 


fA 
合 圭 。 


只 能 


default、case 人 能 


ER 


出 现在 switch 结构 中 。 


作用 域内 的 变量 不 人 允 认 


F 习 


实际 上 ， 由 于 程序 设计 语言 的 差异 ， 


中 较为 常见 的 例子 而 已 。 实 际 上 
义 。 笔 者 有 必要 指出 ， 动 态 i 


名 、 枚 举 常 量 不 


名 等 。 


静态 语义 也 不 尽 本 


， 在 程 


大义 检查 (dynamic semantic check) 并 不 能 在 级 
此 ， 也 不 属于 经 典 编译 技术 讨论 的 范畴 。 例 如 ， 当 数组 下 标 是 一 个 变量 时 ， 


日 同 。 这 里 只 是 列举 了 一 些 C 语言 

序 设 计 语 言 中 ， 与 静态 语义 对 应 的 范畴 就 是 动态 语 
译 阶段 完成 ， 因 

数组 访问 越界 就 

的 ， 需 要 在 目标 


不 是 静态 语义 检查 能 够 判断 的 。 


通常 ， 动 态 语义 检查 都 是 在 程序 执行 时 进行 


程序 中 加 入 相应 的 语义 检查 代码 。 
等 经 典 编译 器 都 不 进行 动态 1 


可 4Dv 


94 


由 


于 动态 语义 检查 需要 耗费 运行 时 资源 ， 因 此 ，C、Pascal 
吾 义 检查 。 在 动态 语义 检查 方面 ，Delphi 做 得 不 错 。 
解释 型 或 混合 型 的 翻译 程序 而 言 ， 实 现 动态 语义 检查 是 相对 容易 的 ， 例 如 ，Java、C#、 


当然 ， 对 于 


Vis 


ual Basic 等 。 


最 后 简单 介绍 一 下 IR 的 相关 话题 。IR 是 输入 源 程序 的 
译 器 设计 者 定义 与 使 用 的 ， 对 于 编译 器 用 户 


符号 表 系 统 | 第 4 学 


日 


逢 - 


' 内 部 表示 形式 ， 通 常 是 由 


乡 


征 透 
成 尽 ， 然后， 再 由 后 端 各 模块 将 IR 翻译 成 目标 代码 ， 如 图 4-1 所 示 。 
| 输入 程序 | | 目标 程序 
> (ASSIGN,1,,c) mov ax,l 

mov [c],ax 
(ADD,a,b,a) add ax,[b] 

mov [al,ax 
(ADD,c,a,c) add ax,[c] 

mov [c],ax 

图 4-1 中 间 表 示 形 式 


IR 是 由 乡 


i 译 器 设计 者 定义 与 使 用 的 ， 根 所 


各 种 便于 构造 编译 器 的 及 


EB 式 。 关 于 IR 


明 不 可 见 的。 前 端 将 输入 源 程序 等 价 地 翻译 


届 源 语言 与 目标 语言 的 不 同 特点 ， 设 计 者 定义 
区 式 的 评价 ， 从 来 就 没有 正确 或 错误 之 分 ， 而 只 有 


适合 或 不 适合 。 不 过 ， 无 论 使 用 哪 种 IR， 设 计 者 都 必须 遵循 一 个 原则 :IR 要 足以 表达 源 语 
言 的 任何 语义 ， 否 则 ， 某 些 源 语言 的 语义 可 能 会 在 转换 成 有 R 的 过 程 中 丢失 ， 语 义 等 价 的 转 
换 也 就 无 从 谈 起 了 。 

早期 编译 器 设计 中 并 没有 使 用 蕉 ， 通 常 是 将 输入 源 程序 直接 转换 为 目标 程序 。 昌 然 在 
编译 效率 方面 ， 生 成 IR 的 编译 器 的 确 无 法 与 直接 生成 目标 代码 形式 的 编译 器 媲美 ， 但 是 前 
者 的 优点 却 是 后 者 无 法 企及 的 。 关 于 IR 的 更 多 内 容 将 在 第 5 章 中 详 述 。 
4.1.3 语法 制导 翻译 

前 面 ， 主 要 讨论 了 语义 分 析 与 IR 生 成 模块 的 基本 任务 ， 本 小 节 将 继续 深入 研究 其 设计 与 


构造 的 相关 技术 。 实 际 上 ， 语 义 就 是 语法 单位 的 含义 ， 故 脱离 了 语法 空谈 语义 
义 的 。 例 如 ，for (i=1; i<10; 计 才 ;语句 中 三 个 表达 


日 


延 


没有 任何 意 
式 的 含义 是 完全 不 同 的 ， 其 中 表达 式 i<10 含 


有 循环 的 终止 条 件 的 语义 。 但 是 ， 如 果 将 这 个 表达 式 单独 提 到 for 语 句 之 外 考虑 ， 该 表达 式 也 


就 不 具备 循环 终 1 
由 于 语义 与 语法 之 间 存 在 着 
考 语义 分 析 与 IR 生成 模块 的 设计 与 构造 。 经 过 不 断 探索 ， 提 出 一 
导 翻 译 (syntax-directed translation )。 可 以 毫 不 夸张 地 说 ， 目 前 所 能 见 到 的 绝 大 多 数 


语法 制 


上 条 从 


-的 含义 了 。 


法 


序 或 语义 动作 )， 


编译 器 都 是 基于 语法 


叫 导 翻译 的 相关 术 


制导 翻译 实现 的 。Neo Pascal 同样 如 此 ， 因 


名 


一 定 的 关系 ， 很 多 编译 器 设计 者 试 


语法 制导 翻译 就 是 在 


FF 下 文 无 关 文 法 产生 式 的 适当 位 置 扣 
随 着 语法 分 析 过 程 的 深入 ， 根 据 每 个 产生 式 中 的 语义 子 程序 ; 


;有 效 且 通 


使 


例 4-1 
【文法 4-1】 


语法 制导 计 


E. == TEL 


El 一 opl 


@ 
了 


表达 式 4+2*3 的 值 。 


Data2=DataStack.pop(); 


行 翻译 的 方式 。 


从 语法 分 析 器 的 角度 思 
的 方案 一 


此 ， 读 者 有 必要 了 解 一 下 语 


口 


入 相应 的 程序 片段 〈 称 为 语义 子 程 
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编译 器 设 


计 之 路 


Datal= DataStack.pop(); 
Op=OpStack.popO); 


switch (Op) 
{ 
case '+': Rslt=Datal+Data2;break; 
case 一 : Rslt=Datal-Data2;break; 
case '#': Rslt=Datal*Data2;break; 
case /: Rslt=Datal/Data2;break; 
} 
DataStack.push(Rslt); 
}El| & 
T 一 rT1l 
(OY 
Tl 一 op2F { . }T1| & 
© 
F 一 (五 )| 一 到 
Datal=DataStack.pop(); 
Rslt=-Datal; 
DataStack.push(Rslt); 
HH 
® a 
7 一 const { ”DataStack.push( 常 量 值 );} 
@ © 
opl™— +{ OpStack.push('+");}| —{ OpStack.push(—");} 
© (0@) 
0D2 一 类 放 OpStack.push(*");}|/{ OpStack.push('/");} 
说 明 : 
(1) 文法 4-1 是 文法 3-10 的 扩充 ， 在 文法 3-10 的 适当 位 置 插入 了 相应 的 语义 子 程序 ， 
以 实现 算术 表达 式 的 自动 计算 。 


(2) 文法 4-1 仅 应 用 于 常量 表达 式 的 计算 ， 
法 3-10 的 I->var 产生 式 删除 了 。 
(3) DataStack、OpStack 是 两 个 栈 结构 ，DataStack 的 元 素 是 


素 是 表达 式 的 运算 符 。push、pop 是 入 栈 和 出 栈 的 方法 。 


(4) 大 括号 之 间 的 程序 段 是 一 个 整体 元 素 ， 即 称 为 语义 子 程序 。 为 了 便于 讲解 ， 


语义 子 程序 进行 了 编号 。 如 
程 如 图 4-2 所 示 。 
实际 上 ， 语 法 分 析 扫 


输入 单词 流 的 过 程 就 是 顺 月 


时 . 


是 里 


果菜 些 大 括号 的 编号 相同 ， 表 示 其 语义 子 程序 完全 相同 。 


阅读 输入 源 程序 的 过 程 ， 而 语义 子 程 


和 暂 不 考虑 变量 ， 所 以 ， 文 法 4-1 中 将 原来 文 
操作 数 ，OpStack 的 元 


为 每 个 
计算 过 


序 就 是 在 阅读 到 特定 位 置 时 需 执行 的 动作 或 者 需 完成 的 工作 。 语 法 制导 的 实现 并 不 复杂 ， 也 
不 存在 太 多 的 理论 基础 。 这 可 能 就 是 语法 制导 能 够 被 广泛 应 用 于 编译 器 设计 的 主要 原因 ， 即 
使 它 不 是 一 个 完备 形式 系统 。 

语法 制导 翻译 ， 顾 名 思 义 ， 整 个 翻译 过 程 是 由 语法 分 析 器 控制 的 ， 所 有 的 语义 子 程序 同 
凡是 由 其 开动 的 。 因此 ， 不 同 的 语法 分 析 方 法 对 语义 子 程序 的 要 求 也 是 完全 不 同 的 。 通 常 ， 
自 上 而 下 的 语法 分 析 是 一 个 从 全 局 到 局 部 的 分 析 过 程 ， 而 自 下 而 上 的 语法 分 析 是 一 个 从 局 部 
到 全 局 的 分 析 过 程 。 当 然 ， 两 者 各 有 特点 ， 也 都 存在 不 足 。 国 内 编译 原理 教材 大 多 数 都 是 以 
后 者 的 语义 子 程序 为 例 讲 解 的 。 不 过 ， 笔 者 更 倾向 于 前 者 ， 觉 得 此 方法 更 适合 手工 构造 。 
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分 析 栈 达 式 所 


$E 4+2*39$ 


$E1T 4+2*3$ E->T El 


$ElTIF 4+2*3$ T->F Tl 


$El1TII 4+2*3$ F-—>I 


$ El Tl {3} const 4+2*3$ I->const {3} 


$ El TI £3} +2*3$ 


43} 执 行 结果 


本 | 


DataStack OpStack 


$ ElTI +2*3$ 


$ El +2*3$ T1->& 


$ El {1} T opl +2*38 El->op1 T {1} El 


$ El {1} T {4}+ +2*3$ Op1->+{4} 


$ El {1}y T {4} 2*38 


{4} 执 行 结果 


DataStack OpStack 


12 


$ El {1}T 2839 


3 


$ El {1} TIF 2*35 T->FTI 


14 


$ El {1} T11 2*35 F->I 


15 


$ El {1} Tl1 {3} const *39 I->const {3} 


16 


$ El {1 T1 {3} *39 


{3} 执 行 结果 


DataStack OpStack 


17 


$ El {1} T1 *39 


18 


$ El {1} T1 {1} F op2 *39 T1->op2F {1} T1 


19 


$ El {1y} Tl {1} F {6} * I Op2->* {6} 


20 


{6} 执 行 结果 


$ El {1y TI {1Y F {6} 


Das 


21 


$ El {1} TI {1}F 


22 


$ El {1} T1 {1}1 F->I 


23 


$ El {1} Tl1 {1} {3} const 3 I->const {3} 


24 


3} 执 行 结 果 


$ El {TI {1 G} 


pr a 


25 


$ El {1 TI {1 


{1} 执 行 结果 


eT 


DataStack OpStack DataStack OpStack 


第 1 步 : 操作 数 、 操 作 符 出 栈 ”第 2 步 : 计算 第 3 步 : 将 计算 结果 压 人 操作 数 栈 
$ El {1} T1 $ 


$ El {1} $ TIl-> se 


{} 执 行 结果 


Rslt-4*6 | 


DataStack OpStack DataStack OpStack 
第 1 步 : 操作 数 、 操 作 符 出 栈 第 2 步 : 计算 ”第 3 步 : 将 计算 结果 压 人 操作 数 栈 


步 
$El $ 
$ $ El->& 


一 上 

可 

Te 
ff 


到 4-2 ”语法 制导 翻译 计算 表达 式 4+2*3 的 过 程 
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B ER i 
罗 。、 编译 器 设计 之 路 
ee 


4.2 符号 表 设 计 


4.2.1 符号 表 概 述 
符号 表 (symbol table》 是 一 种 供 编译 器 存储 关于 源 程序 各 种 元 素 信息 的 数据 结构 。 在 纺 
译 过 程 中 ， 编 译 器 自动 收集 所 需 的 信息 ， 将 其 组 织 存 储 在 符号 表 中 ， 同 时 ， 依 据 这 些 信息 完 


成 代码 优化 和 目标 代码 生成 等 。 
符号 表 的 功能 包括 以 下 几 个 方面 : 


(1) 收集 源 程序 中 各 元 素 的 信息 。 在 编译 过 程 中 ， 编 译 器 根据 源 程 序 声明 语句 收集 各 类 


语法 元 素 的 信息 ， 


万 


从 与 


并 在 


表 中 建立 相应 的 表 项 记录 。 
(2) 上 下 文 语义 相关 性 检查 的 依据 。 例 如 ， 表 达 式 a % 8 


ph， 编译 器 必须 通过 检索 符号 


表 获 取 标 识 符 a 的 信息 ， 尤 其 是 其 类 型 信息 ， 只 有 当 a 是 整 型 变量 或 符号 常量 时 才 符 合 取 模 
运算 的 语义 。 


(3) 存储 分 配 的 依据 。 在 生成 目标 代码 时 
和 编译 器 产生 的 临时 变量 ) 分 配 存储 空间 。 上 日 
它 是 目标 代码 生成 器 进行 存储 分 配 的 刁 


巴 
实际 上 ， 符 号 表 就 是 编译 器 的 中 心 信 息 库 


器 后 续 决 策 的 质量 。 尤 其 是 在 优化 代码 及 目标 代码 生成 时 ， 某 些 


日 于 
要 依据 之 一 。 


， 编 译 器 必须 最 终 为 每 个 变量 〈 包 括 用 户 变量 


符号 表 完 整地 记录 了 所 有 变量 的 信息 ， 因 此 


三 | 
里 


A 


。 符 号 表 收 集 信息 的 完备 与 否 ， 直 接 影响 编译 
对 于 个 别 算法 是 极 


At 所 .位 自 


付 写 4 百 起 ， 


为 重要 的 。 例 如 ，C 语言 中 volatile 修饰 符 对 优化 算法 就 提出 了 一 定 的 要 求 。 


万 夺 口 


zen 


从 应 用 的 角度 来 说 ， 寄 希望 于 从 
里 解 的 ， 但 是 ， 当 


符号 


Aor 4 


付 已 


以 
标 ， 


表 获 得 
表 成 为 一 本 万 宝 全 书 时 ， 问 题 也 就 随 之 而 来 了 。 为 了 达到 这 一 有 
不 得 不 以 牺牲 存储 空间 与 检索 访问 时 间 为 代价 ， 这 并 不 是 设计 者 愿意 看 到 的 结果 。 


切 关 于 输入 源 程序 的 符号 信息 的 思想 


日 


期 


编译 器 设计 者 对 此 极其 关注 ， 因 
成 正确 的 翻译 工作 ， 时 间 、 空 间 
因素 的 
标 。 通 常 ， 编 译 器 设计 者 必须 权衡 两 者 的 关系 ， 


那么 ， 哪 些 信息 需要 保存 到 符号 表 9 


复杂 度 也 是 


为 效率 有 时 决定 了 该 编译 器 的 
PF 价 一 个 编译 器 的 
要 性 有 所 弱化 ， 但 是 ， 它 们 仍然 是 系统 软 人 


P 呢 ? 这 是 根据 
设计 语言 的 语法 、 语 义 规 则 都 可 能 存在 较 大 差异 。 对 于 不 同 范 型 的 语言 而 言 ， 由 


命运 。 优 秀 的 编译 嚣 不仅 要 完 
要 指标 。 虽 然 今天 看 来 这 些 
F 〈 操 作 系统 、 编 译 器 ) 的 重要 性 能 指 
并 作出 抉择 。 
人体 程 


序 设 计 语言 而 定 的 。 不 同 程序 


言 模型 差别 巨大 ， 应 用 领域 与 设计 
例如 ，C 语言 中 可 以 使 用 static、 + 


目标 也 各 不 相同 ， 因 


egister 等 修饰 变 


于 它们 的 语 
此 ， 符 号 表 的 结构 也 必定 存在 差异 。 
而 Pascal 语言 则 不 存在 这 种 语法 机 


上 


量 ， 


制 。 因 此 ，C 编译 器 的 符号 表 必 须 存在 描述 此 信息 的 字段 ， 而 Pascal 编译 器 则 不 必 考 虑 。 由 
于 Neo Pascal 语言 是 一 种 命令 式 〈 或 称 为 过 程式 ) 语言 ， 所 以 本 书 所 讨论 的 符号 表 更 多 情况 
下 适用 于 命令 式 语言 (例如 ，C、Fortran 等 ) 编译 器 的 构造 。 

通常 ， 编 译 器 的 符号 表 可 能 包含 如 下 信息 : 

(1) 变量 名字、 类 型 描述 、 作 用 域 、 种 类 、 存 储 地 址 等 ) 

(2) 和 常量 (名 字 、 常 量 类 型 、 作 用 域 、 值 等 ) 

(3) 函数 (名 字 、 形 参 列表 、 返 回 类 型 、 存 储 地 址 、 种 类 、 中 间 代 码 列 表 等 ) 

(4) 标号 名字、 作用 域 等 ) 
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E+ 


Ar 记过 


人 


使 用 。 


写 表 
主要 是 将 识别 得 
完成 的 。 在 编译 过 程 中 ， 各 个 模块 都 可 以 从 符号 
器 本 身 。 有 些 编译 器 也 会 将 


的 信息 收集 工作 主要 集中 在 词法 分 析 、 语 义 分 析 两 个 阶段 ， 
， 其 余 更 多 的 信息 收集 工作 都 是 由 语义 分 析 
表 中 检索 获取 所 需 的 信息 ， 并 不 
表 输 出 成 一 些 标准 的 格式 文件 ， 供 汇编 器 、 链 接 器 、 调 试 器 


到 的 字面 


让 作 
让 


大 和 品 


量 直 接 登 记 入 


==} 
吊 里 


符号 


4.2.2 ”符号 表 的 逻辑 结 


本 小 贡 


术 而 不 是 科 


= 


主要 讨论 设计 者 以 何 种 形式 来 组 乡 
学 。 有 时 ， 面 对 几 


符号 表 系 统 | 第 4 学 


中 ， 词 法 分 析 阶 段 


实施 验证 2 
并 不 否认 


上 


1， 仪 仪 凭借 
理论 分 析 的 重 


和 局 .二 


AI 


\ 付 也 


女 


So 
总 体 | 


0 证 付 己 


所 谓 单 


理 集 中 。| 


j 其 缺点 是 由 


的 不 同 而 


所 请 多 表 
整个 编译 过 程 中 ， 编 译 器 可 能 需要 维护 若干 张 类 型 不 同 的 


于 不 同 符号 


不 同 ， 这 是 数据 库 设计 者 
与 单 表 形 式 相 比 ， 多 表 组 织 形 式 相对 
多 式 ， 就 是 指 把 类 型 相 


Vi 


天 


的 


a 
信息 。 


J 


付 瑟 去 


乡 


局 限 了 


i 译 


的 设计 很 大 程度 上 是 一 门 艺 
设计 方案 ， 很 难 判定 计 优 训 劳 。 与 数据 库 逻 辑 设计 类 似 ， 在 
理论 分 析 评 价 一 个 数据 库 模 型 可 能 并 不 是 非常 科学 的 。 当 然 ， 笔 者 
要 性 ， 但 是 太 多 实践 经 验 让 人 们 


不 得 不 承认 这 个 观点 。 


属 怕 


的 逻辑 组 织 形式 主要 有 两 种 ， 单 表 、 多 
表 形 式 ， 就 是 指 把 所 有 的 符号 都 组 织 在 一 张 符号 表 中 。 这 


人 Ko 


组 织 方式 的 


大 上 


[优越 一 些 。 


ZA 


FE 字 段 并 不 相同 ， 使 
常 无 法 接受 的 。 这 种 组 织 形式 多 见于 一 些 


以 的 符号 《〈 即 属性 字段 基本 相同 ) 组 织 在 一 张 符号 表 


AD 


符号 分 散在 不 同 的 符号 表 中 。 例 如 ， 


号 时 ， 只 需 按 变量 名 和 作用 域 在 变量 表 


可 以 将 变量 符号 


AAA 


全 


集中 在 


符号 表 的 


项 长 度 会 因 
早期 编 i 


中 ,在 


号 表 。 这 种 形式 使 得 类 型 差别 明显 的 
张 变量 表 中 ， 编 译 器 在 检索 变量 符 


而 言 ， 这 种 方式 更 符合 数据 库 设计 的 思想 。 


有 利于 降低 管理 复杂 度 。 现 代 编 译 器 设计 观点 更 倾向 于 这 种 组 织 形 式 ， 当 然 ， 关 于 


并 没有 统一 的 标准 ， 完 全 是 凭借 设计 者 经 验 


F 面 详 


纪 


谈 谈 Neo Pascal 
据 Pascal 语言 的 特点 ，Neo Pascal 设置 了 六 张 符号 表 : 过 程 信息 表 、 变 量 信息 


za 


付 


表 、 枚 举 类 型 信息 表 、 类 型 信息 表 、 标 号 信息 表 。 笔 者 提出 的 这 


P 检 索 即 可 ， 无 需 额外 判定 符号 类 型 。 从 数据 库 设 计 观 点 
虽然 未 必 所 有 的 符号 表 都 能 符合 3NF 要 求 ， 但 它 的 确 
符号 相似 程度 
、 上 有 具体 语言 与 目标 系统 而 定 的 。 
号 表 的 逻辑 结构 。Neo Pascal 的 符号 表 采 用 多 表 组 织 形 式 ， 
县 表 、 常 量 信息 


分 类 方法 未 必 是 最 佳 的 设 


计 ， 只 能 说 是 一 种 可 行 的 设计 方案 而 已 。 另 外 ， 需 要 说 明 一 点 ， 为 了 照顾 一 些 初学 者 的 需要 ， 
笔者 选择 了 STL 的 map 模板 类 作为 符号 表 的 主要 描述 形式 ， 而 避免 使 用 链表 之 类 的 复杂 结 


构 。map 模板 类 的 内 核实 现 是 


uu 


息 表 


红 黑 树 ， 它 是 一 种 极其 
性 能 可 以 接近 或 超过 hash_map 〈 即 散 列 表 )。 因 出 
下 标 形式 的 关键 字 描述 的 ， 不 过 ， 为 了 便于 讲解 ， 本 : 


变量 信 


1. 
变量 信 
明 的 变量 、 


程 等 信息 ， 


县 表 主 要 月 


编译 器 产生 的 临时 变量 


乡 


但 是 在 


了 


ij 译 过 程 中 由 


存储 变量 符号 


编 


译 器 自 


言 的 特点 ，Neo Pascal 变量 信息 表 表 项 的 结构 如 下 : 


【声明 4-1 】 
struct VarInfo:ObjectInfo 


高 效 的 平衡 树 结构 ， 在 
上 ， 本 书 符号 表 中 涉及 的 指针 都 是 以 类 似 于 
仍然 将 沿用 “指针 ”这 一 名 称 。 


些 特殊 场合 下 ， 


的 相关 信息 。 这 里 讨论 的 变量 一 般 包 括 两 类 
。 与 用 户 声明 的 变量 类 似 ， 
动产 生 的 ， 对 于 用 户 是 完全 透明 的 。 


而 时 变量 也 


: 用 户 声 
、 所 属 过 


民 据 Pascal 语 


具有 类 型 


~ 
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性 i 
驴 ”编译 器 设计 之 路 
CL 


int m_iTypeLink; 


enum Rank {PARA,VAR,RET} m eRank; 


bool m bRef; 

int m iMemoryAlloc; 
string m_SZReg; 

bool m_bUsed; 
VarInfo(); 


} 


m szName: 变量 名 。 对 于 临时 变量 而 言 ，Neo Pascal 采用 统一 的 命令 规 由 
Xx x XxX” 其 中 ,“ xX x Xx” 表 示 一 个 任意 长 度 的 正 整 数值 ， 


保证 都 不 存在 重 名 现象 。 而 变 


蛙 


量 名 冲突 ， 基 


开头 来 命名 临时 变量 ， 以 
ObjectInfo 的 。 
m iProcIndex: 变量 所 属 


过 程 


这 个 值 
名 以 下 画 线 开 头 ， 则 保证 了 临时 变量 不 可 能 与 
为 Pascal 语言 规则 变量 名 必须 以 字母 开头 。 如 果 是 C 语言 ， 则 必须 用 其 他 字符 
区 别 C 语言 中 下 画 线 开 头 的 变量 。 


VY 
妆 


1， 即 为 “ 工 
编译 器 顺序 编码 ， 以 此 
j 户 定义 的 变 


FE 意 ，m_szName 属性 是 继承 自 


的 指针 。 根 据 Pascal 语言 的 语义 ， 变 量 必 须 隶 属于 某 一 个 


过 程 ， 即 使 是 全 
属性 是 继承 自 ObjectInfo 的 。 


m iTypeLink: 变量 的 类 型 描述 指针 。 在 分 析 变 量 声明 时 ， 必 须 在 符号 表 中 将 变 


局 变量 也 是 隶属 于 3 


完整 地 进行 描述 ， 这 是 后 续 语义 分 析 及 代码 翻译 的 决策 依据 。 由 于 类 型 描述 比较 复 


大 左上 品 | 


符号 与 变量 符号 
表 ， 即 类 型 


的 属性 信息 也 差异 较 大 ， 因 


程序 的 ， 这 与 C 语言 是 不 同 的 。 注 意 ,，m_ iProcIndex 


量 类 型 


类 型 


杂 ， 


此 ， 笔 者 将 类 型 描述 信息 构造 成 一 张 独立 的 符号 
信息 表 。 而 m_iTypeLink 就 是 指向 该 表 类 型 描述 信息 的 指针 。 
m_eRank: 变量 的 类 别 ， 取 值 范围 为 {VAR，PARA，RET}， 分 别 表 示 普 通 


变量 、 形 


函数 的 形 参 和 返回 值 都 不 是 


参 、 返 回 值 。 严 格 地 说 ， 过 程 、 
的 变量 非常 


的 存储 空间 


例如 ，Pascal 语言 规定 返回 值 只 能 作为 右 值 。 


dr El 


从 与 表 


因此 ， 


j 户 声明 的 变量 ， 但 与 用 户 声明 


。 当 然 ， 与 普通 用 户 定义 的 变量 相 比 ， 形 参 、 返 回 
必须 对 形 参 、 返 


类 似 。 对 于 编译 器 而 言 ， 同 样 需要 对 它们 作 语 义 检查 、 类 型 分 析 ， 也 要 分 配 相应 


值 毕 竞 又 具有 一 定 的 特殊 性 。 
值 加 以 标识 。 


口 


m_bRef: 用 于 标识 该 变量 的 寻 址 方式 是 直接 寻 址 还 是 间接 寻 址 。 


[二 


m _MemoryAlloc: 这 个 所 


贞 


性 将 在 存储 分 配 


语义 分 析 阶 段 并 不 需要 关注 这 个 属性 。 


上 县 有 目 
量 是 人 否 


m bUsed: 标识 变 

分 配 存 储 空间 。 
注意 ，VarInfo 结构 是 继承 
大 多 数 符号 共有 的 属性 ， 因 


关怀 


是 符号 


于 


及 


自 ObjectInfo 结构 的 。 这 是 由 


Ph 使用， 主要 用 于 标识 变量 的 逻辑 存储 


的 表 项 结构 都 是 ObjectInfo 的 派生 结构 。 


2. 常量 信息 表 


es 
常量 信息 


分 


表 主 要 用 于 存储 常 
器 所 识别 获得 的 常量 ， 可 能 还 会 包括 编译 过 程 r 


此 ， 笔 者 将 其 抽象 到 Objectmfo 结构 中 ， 而 


也 址 。 


被 使 用 。 在 整个 程序 范围 内 ， 如 果 该 变量 没有 被 使 用 ， 则 不 必 


于 m szName 与 m_iProcIndex 


他 各 类 具体 


万 夺 口 


符号 


友人 


量 符 


号 的 相关 信息 。 常 量 信息 表 中 的 常量 不 一 定局 限于 词法 
P 产 生 的 一 些 常 量 值 。 例 如 ， 编 译 器 在 分 


析 表 达 式 a=3+5 时 ， 为 了 提高 目标 程序 的 运行 效率 ， 通 常会 自动 计算 3+5 的 值 ， 将 计算 结 


8 直接 赋 给 变量 a， 而 不 需要 生成 具体 的 计算 指令 。 
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这 时 ， 编 译 器 必须 将 常量 8 记录 在 常量 


言 息 表 中 ， 以 便 


量 在 目 


标 程 请 eal 予 分 配 存 储 空 


详 器 而 吾 ， 常 量 信 
现实 意义 的 。 常 


【声明 4-2】 


量 信息 


县 仍然 是 非常 


struct ConstInfo:ObjectInfo 


{ 


String m | 


szVal; 


ConstType m ConstType; 


StoreType m StoreType; 


long long m iVal; 
bool m _bVal; 
double m _fVal; 


int m_iEnumIdx; 


stringm | 


szSet; 


bool m _bUsed; 
ConstInfo(); 


} 
m ConstType: 


重要 的 ， 


表 表 项 的 声明 形式 如 下 所 示 : 


符号 表 系 统 


第 4 章 | 


后 续 处 理 。 从 程序 设计 语言 的 角度 来 说 ， 常 量 与 变量 是 完全 不 同 的 ， 
间 的 ， 而 变量 必须 占用 一 定 存储 空间 。 
它 是 代码 生成 的 依据 。 因 


本 三 关 


此 ， 设 置 常 量 


Ea 


因为 党 


即便 如 此 ， 对 于 编 


言 息 表 是 有 


常量 时 时 的 基本 类 型 。 


、 束 型 I 常量 等 。 


的 。 
PTR}， 即 
合 型 、 指 针 
的 常量 。 
录 类 型 常量 、 数 组 常 
m StoreType: 


> 友 夺 器 


确定 常量 的 实际 类 型 。 
无 法 准确 断言 它 是 到 底 是 INTEGER、BYTE、 
LONGWORD 中 的 哪 一 
m iVal、 


m_ szVal、 


有 译 器 无 法 也 没 汪 


字符 串 型 、 实 
型 (NIL)。 
0 复杂 类 型 


在 词法 分 析 阶 段 ， 编 译 器 


与 变量 类 似 ， 常 量 也 


\ 有 类 型 例如 ， 


! 信 


要 精确 断言 常 


实 型 


型 、 整 型 


这 上 


常量 的 实际 类 型。 
例如 ， 在 分 析 常 


类 型 。 


类 型 断言 


讨论 的 常量 可 能 
言 息 一 般 并 不 记录 在 常量 信息 


、 科 学 记 数 法 的 实 型 、 


能 够 识别 常量 符号 
量 的 实际 类 型 ， 因 
ee INTEGER, EREAL, BOOLEAN, ENUM, SET, 
布尔 型 (True、False)、 枚 举 型 、 


息 . 
， 并 将 其 登记 到 符号 表 中 ， 


类 型 


为 这 项 工作 通常 是 由 类 


闻 是 - 
串 到 


在 编译 过 程 中 ， 根 据 常 


SHORTINT 、 


\ 表 中 ， 


量 的 取 值 ， 编 译 器 将 自 
量 123.12 时 ， 词 法 分 析 器 可 以 识别 它 是 整 型 常 


字符 串 型 


系统 完成 


人 


信人 


并 不 等 同 于 C 语言 中 由 const 修饰 符 指 示 


例如 ， 记 


be 


SMALLINT.、 


的 工作 通常 由 类 型 系统 完成 。 


m_bVal、 


m fVal、 


m_ szSet: 


常量 的 值 。 根 据 常 


储 于 相应 的 字段 中 。 例 如 ，12.31 是 实 型 常量 ， 则 将 12.31 存储 在 m_fVal 字段 中 。 


m iEnumldx: 
存储 的 。 例 如 : 


TYPE 


进行 


枚 举 类 型 描述 指针 。 在 大 多 数 语言 中 


num=(one,two,three,four,five,six,seven,eight,nine,ten); 
date=(Sun,Mon,Tue, Wed,Thu,Fri, Sat); 


VAR 
anumi 
b:date; 

BEGIN 


WORD 、 


量 基 本 类 型 ， 将 值 存 


型 数据 都 通常 


， 枚 举 类 


是 以 整 型 什 
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BS ER i 
罗 、 编译 器 设计 之 路 
ee 


a:=(three);b:=(Tue); 
END. 


号 。 例 如 ， 执 行 完 该 程序 段 后 ，a 中 的 值 为 2 (three 的 编号 为 2)，b 中 的 


在 分 析 num 类 型 声明 时 ， 通 常会 为 mm 中 的 每 个 枚 举 常 量 分 配 一 个 唯一 的 序号 。 同 
样 ， 编 译 器 也 会 为 date 中 的 每 一 个 枚 举 常量 顺序 编号 。 而 ab 中 存储 的 值 则 是 枚 举 常量 的 纺 


Fy 


直 也 是 2 〈Tue 的 编 


号 为 2)。 当 然 ，Pascal 语言 的 枚 举 类 型 不 允许 用 户 像 C 语言 那样 为 枚 举 常量 指定 序号 。 对 于 


枚 举 常量 three 与 Tue 而 言 ， 它 们 的 实际 存储 值 是 


后 续 阶 段 分 析 处 理 。 


完全 相同 的 ， 然 而 ， 它 们 所 属 类 型 却 是 完 
全 不 同 的 。 因 此 ， 在 常量 信息 表 中 ， 登 记 枚 举 常量 时 必须 记录 其 所 属 的 枚 举 类 型 信息 ， 以 便 


m_bUsed: 标识 常量 是 否 被 使 用 。 在 整个 程序 范围 内 ， 如 果 该 常量 没有 被 使 用 ， 则 可 以 


不 予 分 配 关 注 。 
3. 过 程 信息 表 
过 程 信息 表 主 要 用 于 描述 输入 源 程序 中 过 程 、 


届 加 


数 指针 类 型 ， 那 么 ， 相 关 信 息 也 将 在 过 程 信息 表 


函数 的 相关 信息 。 通 常 包括 形 参 列表 、 返 


值 类 型 以 及 参数 传递 方式 等 。 除 了 普通 的 过 程 、 函 数 信息 之 外 ， 如 果 输 入 源 程序 中 使 用 了 
中 体现 。 由 于 函数 指针 的 属性 与 函数 非常 
相似 ， 所 以 ， 笔 者 将 其 组 织 在 过 程 信息 表 中 。 早 期 ， 函 数 指针 或 者 函数 类 型 的 概念 主要 是 源 


于 函数 式 语言 。 标 准 Pascal 是 较 早 接受 函数 指针 概念 的 语言 ， 之 后 一 些 Pascal 编译 器 又 参考 


了 C 语言 的 经 验 ， 改 进 了 函数 指针 及 其 实现 细节 。 
的 相关 实现 。 过 程 信息 表 表 项 的 声明 形式 如 下 所 示 : 


【声明 4-3】 
struct ProcInfo 


{ 
string m_szName; 
enum Rank {Main,Sub} m eRank; 


enum Type {Procedure,Function,Type} m eType; 


vector<ParaInfo> m_ParaTbl; 
int m iReturnType; 
int m iReturmnVar; 
enum Flag {Forward,Extern,None} m eFlag; 
int m iExternStr; 
int m_iProcDefToken; 
enum CallType {Stdcall,Fastcall} m eCallType; 
vector<IRCode> m Codes; 
set<int> m_TmpMemShare; 
int m ValSize; 
int m_ TmpLink; 
bool m_ bUsed; 
bool m bTmpUsed; 
ProcInfo(); 
} 


m_ szName: 过 程 、 函 数 名 字 。 注 意 ， 由 于 N 
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因此 ，Neo Pascal 也 有 必要 考虑 函数 指针 


eo Pascal 并 不 允许 过 程 、 函 数 的 舱 套 定 


义 ， 所 以 ， 过 程 、 
m_eRank: 过 程 等 级 。 标 识 该 过 程 或 函数 是 于 
m eType: 表 项 类 型 。 


函数 名 字 必 须 唯一 。 


符号 表 系 统 | 第 4 学 


标识 该 表 项 是 


序 还 是 子 过 程 。 
a 表 项 、 函 数 表 项 还 是 函数 指针 类 型 表 项 。 


m_ParaTbl: 形 参 列表 信息 。 存 储 该 过 程 或 函数 的 形 参 信息 ， 包 括 形 参 名 称 、 形 参 类 型 


述 、 形 参 变 量 、 形 参 传 i 
m iReturnType: 返回 


递 方式 等 。 
类 型 


述 指针 。 


m iReturnVar: 返回 变量 指针 。 与 形 参 类 似 ， 函 数 的 返回 值 也 与 普通 变量 处 理 比 较 相 


似 ， 通 党 ? 也 需要 在 变量 信 息 表 中 建立 


m_eFlag: 过 程 修饰 标 
件 中 ， 甚 至 人 允 计 
库 函 数 等 。 无 论 是 哪 种 调用 方式 多 
悉 dll 库 或 Windows API 上 
声明 函数 头 部 。 在 Pascal、 
以 下 两 种 函数 ， 其 他 源 文件 中 的 函数 、 其 他 二 进 
一 个 外 部 函数 的 头 部 声明 。Forward 标志 表示 i 
意 ， 前 者 是 现代 编译 器 普遍 支持 的 ， 它 是 动态 扩展 编译 器 功能 的 基础 。 而 后 者 是 实现 一 遍 扫 


4 o 


志 。 不 少 语言 允许 过 程 、 函 数 的 声明 与 使 用 不 在 同一 个 源 程序 文 
序 调用 一 些 外 部 定义 的 过 程 、 函 数 。 例 如 ， 用 户 程 序 调用 系统 接口 、 


i 译 器 都 必须 知 
的 读者 应 该 不 难 


C 语言 中 ， 除 了 常规 


描 编译 的 基本 要 求 ， 其 目的 就 是 告知 编译 器 函 

文件 中 ， 保 证 编译 器 能 够 在 尚未 完整 分 析 函 数 定义 之 衣 
实际 上 上， 这样 的 设计 只 是 为 了 便于 编译 器 能 够 在 
译 器 实现 中 ， 有 时 也 会 使 用 多 遍 扫描 ， 此 时 ，Forward 引 


m_iExternStr: 外 部 


被 调 函 数 的 形 参 列表 和 返回 值 类 型 。 熟 
一 个 函数 时 ， 必 须 事 先 在 程序 中 显 式 
的 函数 声明 调用 以 外 ， 还 允许 用 户 程序 调用 
F 中 的 函数 。Extern 标志 表示 该 表 项 是 
一 个 内 部 函数 的 向 前 引用 声明 。 注 


定义 可 能 在 本 文件 稍 后 位 置 或 其 他 源 


网 饰 说 明 。 


| 


就 能 知道 该 如 何 准 确 调用 此 函数 。 
遍 扫 描 过 程 中 完成 编译 。 当 然 ， 在 现代 编 


将 是 完全 多 余 的 。 


仅 当 m_eFlag 为 Exterm 时 ， 此 字段 存储 外 部 函数 相关 说 


明 人 信息。 例如， 外 部 函数 所 属 的 文件 名 、 函 数 参数 传递 方式 等 。 为 了 便于 管理 ， 通 常 将 修饰 
言 息 统一 存储 在 外 部 修饰 信息 表 中 ， 而 m_ 认 xtemStr 则 是 指向 相应 信息 表 项 的 指针 。 


m_ iProcDefToken: 原 


a 


型 单词 流 。 有 时 ， 编 译 器 需要 判定 过 程 或 函数 声明 与 定义 的 头 信 
恩 是 否 完 全 相同 ， 仪 仅 依据 其 名 字 、 形 参 列表 、 返 回 类 型 等 语义 元 素 作出 判断 并 不 一 定 正 


确 。 尤 其 在 输入 源 程序 中 存在 向 前 声明 时 ， 编 译 器 必须 严格 判断 前 后 两 个 声明 形式 是 否 完全 


一 致 ， 对 于 不 完全 一 致 的 情况 ， 
断 是 相对 严格 
的 ， 但 是 当前 者 是 后 


义 是 完全 相同 


编译 器 必须 给 出 错误 或 警告 


提示 。 在 Pascal 语言 中 ， 这 种 判 


并 不 局 限于 语义 层次 上 的 一 致 。 例 丸 
者 的 向 前 引用 


Pascal 编译 器 3 


j 是 提示 命名 冲突 


(1) function aa(a:integer):integer; 


(2) function aa(al:integer):integer; 


EN 


m Codes: 上 


以 下 几 个 民 
m_ValSize: 相关 


在 C 语言 9 
参数 类 型 、 参 


值 类 型 等 。 


m_TmpLink: 临时 变量 的 指针 。 


1， 在 如 下 两 个 函数 声明 中 ， 其 语 
十 (当然 ， 需 增加 forward 关键 字 )， 大 多 数 


岂 | 


P， 这 种 判断 则 相对 较 弱 。C 编译 器 更 多 关注 的 是 语义 层次 上 的 一 致 ， 例 如 ， 
数 个 数 、 返 回 
P 间 代码 序列 ， 将 在 第 5~6 章 
m_ TmpMemShare: 可 共享 存储 区 域 的 临时 
性 都 将 在 第 8 章 中 讨论 ; 

局 部 变量 的 空间 大 小 。 
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B ER i 
罗 、 编译 器 设计 之 路 
ee 


m_bUsed: 表示 过 程 或 函数 是 否 被 使 用 。 在 整个 程序 范围 内 ， 如 果 都 没有 被 使 用 ， 则 不 

必 分 配 关注 。 
m_bTmpUsed: 表示 过 程 或 函数 中 是 否 使 用 了 临时 变量 。 
下 面 简单 介绍 一 下 形 参 列 表 表 项 结构 及 其 意义 。 


【声明 4-4】 
struct ParaInfo 


{ 


string m_szName; 


int m iParaType; 

int m iParaVar; 

enum AssignType {VAL,VAR} m eAssignType; 
上 

m szName: 形 参 名 。 

m_iParaType: 形 参 类 型 指针 。 

m_iParaVar: 指向 形 参 所 关联 变量 的 指针 。 

m_eAssignType: 传递 类 型 。 用 于 描述 形 参 的 传递 方式 。 在 程序 设计 语言 中 ， 参 数 的 传 
递 方式 主要 有 三 类 : 值 传递 、 址 传递 、 引 用 传递 。C 语言 只 支持 值 传递 ，Pascal 语言 支持 值 
传递 、 引 用 传递 (也 就 是 Pascal 中 俗称 的 “ 变 参 ”)。 

4. 类 型 信息 表 

类 型 系统 是 程序 设计 语言 的 一 个 研究 课题 。 在 编译 技术 中 ， 更 多 讨论 的 是 类 型 系统 的 实 
现 及 其 与 编译 器 设计 的 关系 。 

类 型 可 能 是 高 级 程序 设计 语言 与 汇编 语言 的 最 主要 区 别 之 一 。 类 型 的 出 现 确实 使 得 程序 

设计 语言 更 加 丰富 多 彩 ， 同 时 也 大 大 提高 了 程序 设计 语言 的 易 用 性 。 但 是 类 型 也 向 程序 设计 
语言 及 其 编译 器 的 设计 提出 了 新 的 挑战 。 与 变量 、 和 常量 、 过 程 、 函 数 等 其 他 语法 元 素 相 比 ， 
类 型 可 能 是 最 为 复杂 的 。 本 章 只 涉及 类 型 系统 中 关于 类 型 描述 的 问题 。 后 续 的 章节 中 ， 还 将 
从 其 他 角度 详细 讲述 类 型 系统 。 
类 型 描述 ， 简 而 言 之 ， 就 是 设计 一 种 数据 结构 用 于 描述 程序 设计 语言 的 类 型 。 在 编译 器 
设计 中 ， 由 于 类 型 描述 最 终 体 现在 符号 表 结 构 中 ， 因 此 ， 有 必要 在 符号 表 设 计 中 加 以 考虑 。 
与 变量 、 和 常量 等 不 同 ， 类 型 的 复杂 之 处 在 于 其 种 类 繁多 且 组 合 灵活 。 虽 然 语言 本 身 提 供 的 基 
本 类 型 (原子 类 型 ) 有 限 ， 但 是 类 型 的 复合 却 使 其 变 得 异常 复杂 。 例 如 : 


【声明 4-5】 
Struct 


union { int*a[l0]; }*b; 

} cL10] 
声明 4-5 并 不 算 太 复杂 ， 但 编译 器 试图 准确 无 误 地 描述 变量 的 类 型 却 也 不 是 非常 容易 
的 。 从 程序 设计 语言 设计 的 角度 来 说 ， 对 于 具有 实际 语义 的 类 型 复合 ， 通 常 是 不 作 太 多 限制 
的 ， 只 是 不 同 的 语言 对 类 型 复合 的 描述 形式 可 能 不 尽 相 同 。 例 如 ，Pascal 中 规定 形 参 列表 中 的 
类 型 只 能 是 基本 类 型 或 用 户 自 定义 类 型 ， 却 不 能 是 匿名 类 型 ， 而 C 语言 中 则 相对 宽松 得 多 。 


符号 表 系 统 | 第 4 章 | 


虽然 类 型 复合 比较 复杂 ， 但 是 任何 复杂 的 类 型 复合 的 语义 是 确定 唯一 的 。 在 语义 可 能 存 
在 二 义 性 时 ， 编 译 器 就 必须 设法 回避 。 例 如 ， 在 C 语言 中 ， 经 常会 借助 于 括号 来 区 别 指向 函 
数 的 指针 和 返回 指针 的 函数 。 

不 同 编译 器 的 类 型 描述 可 能 存在 一 定 的 差异 ， 但 它们 的 内 核 却 是 惊人 地 相似 ， 都 是 使 用 
类 型 链 的 形式 加 以 描述 的 。 其 基本 思想 就 是 以 一 种 线性 结构 来 精准 地 描述 类 型 的 修饰 关系 ， 
这 是 一 个 非常 有 效 且 灵活 的 描述 形式 。 当 然 ， 类 型 链 并 不 是 唯一 的 描述 形式 。 在 早期 C 语言 
编译 器 中 ， 出 现 过 位 串 形式 的 类 型 描述 。 不 过 ， 这 个 方式 存在 一 定 的 局 限 ， 它 不 足以 描述 任 
意 形式 的 类 型 复合 ， 也 不 能 用 于 描述 数组 等 类 型 。 

类 型 链 就 是 按照 语义 层次 将 复合 形式 的 类 型 逐一 分 解 成 单一 的 类 型 结 点 ， 并 将 这 些 类 型 结 
点 依次 链接 形成 一 个 线性 结构 。 这 里 ， 读 者 必须 注意 两 点 ， 第 一 ， 类 型 链 是 按 语 义 层次 展开 
的 ， 也 就 是 说 ， 类 型 链表 元 素 的 顺序 不 同 ， 其 描述 的 类 型 是 不 同 的 。 第 二 ， 不 同 程序 设计 语言 
的 类 型 表示 形式 差别 较 大 ，C 语言 是 前 缀 形式 ， 而 Pascal 则 是 后 缀 形式 。 因 此 ， 编 译 嚣 设计 者 
应 该 根据 源 语言 的 特点 确定 类 型 语义 的 层次 。 例 如 ，int* a[10] 的 语义 是 声明 一 个 含有 10 个 元 素 
的 数组 ， 数 组 元 素 的 基 类 型 是 指向 整 型 的 指针 ， 所 以 类 型 链 的 描述 为 “数组 -> 指针 -> 整 型 ”。 

不 同 编译 器 类 型 链 的 实现 方式 可 能 差异 较 大 ， 实 际 上 ， 这 个 问题 的 核心 就 是 讨论 线性 结 
构 的 存储 形式 。 关 于 这 个 问题 ， 读 者 可 以 参考 数据 结构 教材 ， 本 书 不 再 赣 述 。Neo Pascal 的 
类 型 链 是 采用 了 一 种 类 似 于 顺序 线性 表 的 形式 ， 也 就 是 类 型 信息 表 。 下 面 ， 笔 者 将 详细 分 析 
类 型 信息 表 的 表 项 结构 。 


【声明 4-6】 
struct TypeInfo:ObjectInfo 
{ 
StoreType m_eDataType; 
int m iLink; 
vector<FieldInfo> m_FieldInfo; 
vector<ArrayInfo> m_ArrayInfo; 


StoreType m eBaseType; 
string m_SZContent; 
int m iState; 
int m iSize; 
TypeInfo(); 
上 
m_szName: 类 型 名 。 与 变量 声明 不 同 ，C、Pascal 等 语言 都 支持 匿名 类 型 。 一 般 而 言 ， 
即使 是 匿名 类 型 ， 系 统 也 会 为 其 自动 分 配 一 个 唯一 的 名 字 。 
m_eDataType: 数据 类 型 。 是 一 个 枚 举 类 型 的 字段 ， 用 于 描述 该 表 项 的 类 型 标识 。 取 值 
如 下 所 示 : 


T_NONE T_CHAR T_BOOLEAN T_INTEGER T_BYTE T_SHORTINT 
T_SMALLINT T_WORD T_ LONGWORD T_CARDINAL T_REAL T_SINGLE 
T_ENUM T_ARRAY T_SET T_RECORD T_STRING T_FILE 
T_POINTER T_LONG8 T_ FUNC T_PROC T_USER 


105 


而 T_NONE 仅 用 于 标识 该 表 项 未 被 使 
(2) T_LONG8 是 一 个 特殊 的 数据 类 型 ， 表 示 8 字 节 的 有 符号 整 型 。 由 于 一 些 经 典 
序 设 计 语 言 的 标准 都 是 在 16 位 、32 位 机 时 代 形 成 的 ， 包 括 Pascal 在 内 的 许多 语言 都 
不 支持 8 字 节 整 型 的 。 不 过 ， 大 多 数 
日 于 许多 程序 设计 语言 的 整 型 都 存在 有 、 无 符号 之 分 。 
号 整 型 值 进行 比较 类 运算 时 ， 必 须 将 无 符号 整 型 值 转换 为 等 


程 


| 
人 碟 


A 


编译 器 设计 之 路 


这 里 有 必要 作 两 点 说 明 : 


(1) T NONE 与 C 语言 中 的 void 是 不 同 的 ，void 是 C 语言 提供 的 一 种 特殊 数据 类 型 ， 


而 已 。 


为 汇编 比较 指令 要 


AAA 


符号 


型 。 


型 最 大 能 表示 的 值 为 2 1 


成 8 


表 项 
举 常 


制 类 型 转换 。 
型 转换 为 有 


数 ， 但 不 允许 一 个 有 


付 己 


求 两 个 操作 数 的 


号 


:也 


通 


用 机 的 编译 器 内 部 者 


编译 器 在 处 理 无 符号 整 型 


是 支持 8 字 节 整 型 的 。 这 


值 与 
值 的 有 符号 整 型 值 。 这 


符号 类 型 是 


AAA 品 


相同 的 ， 


数 与 


4 


C 付 与 


a 


符号 


带 


出 
二 


但 


是 ， 就 ] 


A 


例如 ，4 字 节 的 无 


符 


号 整 型 


47 483 647。 为 了 不 影 


万 品 


字 节 的 有 符号 


中 
蜂 


整 型 进行 比较 。 
m iLink: 指向 下 一 个 类 型 结 点 的 指 钊 
为 枚 举 类 型 时 ， 由 于 枚 举 类 型 无 法 继续 进行 类 
列表 的 指针 。Neo Pascal 有 一 张 全 


局 符号 表 


可 以 


万 夺 品 


符号 


司 为 有 符号 数 或 同 为 无 


数 进行 比较 。 这 种 情况 下 ， 就 必须 进行 强 
显然 ， 将 有 符号 整 型 转 成 无 符号 整 型 是 不 可 能 的 ， 
FE 整数 而 言 ， 无 符号 整 型 的 表示 范围 要 远大 于 有 
4 最 大 能 表示 的 值 为 4294 967 295， 而 4 字 节 的 
响 运算 结果 ， 编 译 器 通常 将 两 者 同时 转换 


全 | 
只 能 


因此 ， 将 无 符号 整 


符号 整 
号 束 


za 


付 - 


| ， 即 为 下 一 个 类 型 结 点 的 下 标 。 不 过 ， 如 果 当 前 
型 复合 ， 所 以 m_iLink 就 复 用 作为 指向 枚 
于 存储 枚 举 常量 值 。 稍 后 ， 笔 者 将 详细 


举例 说 明 。 在 Pascal 中 ， 枚 举 常 量 的 名 字 与 普通 标识 符 类 似 ， 是 共享 同一 个 名 字 空 间 (命名 
) 的 。 例 如 ， 声 明代 码 如 下 : 


空间 


VAR 


编译 器 通常 会 提示 a2 标识 符 已 被 使 月 


。 


a:(al,a2,a3); a2:INTEGER; 


m FieldInfo: 记录 类 型 字段 列表 。 前 面 读者 已 经 对 Pascal 记录 类 型 有 了 简单 了 解 。 实 际 


上 ，Pascal 的 记录 类 型 并 不 复杂 ， 只 是 对 于 大 多 数 读者 而 言 ， 更 习惯 使 用 C 语言 的 结构 、 联 


合 类 


组 ， 而 是 将 多 维 数组 视 作 多 个 一 维 数组 的 复合 ， 


个 1n 


型 而 已 。 
m_ArrayInfo: 数组 类 型 


维 数组 。 


m_eBaseType: 基本 类 型 。 使 用 类 型 链 描述 类 型 几乎 是 
度 问题 的 观点 却 并 不 一 致 。 类 型 链 的 长 度 也 就 是 指 类 型 结 点 的 多 
者 并 不 支持 极 短 的 类 型 链 形式 ， 
长 的 类 型 链 是 


色 对 占 优 的 。 在 设计 


j 户 定义 数组 的 上 、 


zeal 


符号 


表 时 ， 应 尽 可 能 保 订 


是 不 使 用 列 


的 维度 列表 。 对 于 数组 类 型 而 言 ， 编 译 器 在 类 型 信息 表 中 详 
细 记 录 数 组 的 维度 及 其 上、 下 限 。 与 C 语言 不 同 ，Pascal 允许 
关于 数组 类 型 的 维度 描述 ， 通 常 还 有 一 种 比较 常见 的 形式 ， 那 训 


下 际 
苗 述 多 维 数 


o 
| 


从 


就 是 说 ， 将 使 用 


n 个 类 型 结 


点 来 描述 一 


口 


公认 


的 ， 但 是 对 于 类 型 链 长 


化 程度 。 一 般 而 言 ， 笔 


因为 这 种 形式 失去 了 构造 类 型 链 的 意义 ， 但 也 不 表示 
E 类 型 链 中 每 个 和 


过 


型 都 可 以 独立 描述 。 不 能 满足 此 条 件 的 表 项 ， 可 拆 分 成 两 个 或 多 个 表 项 ， 并 以 类 型 链 形 
式 钩 链 。 
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m_ szContent: 备注 。 


m iState: 处 理 状 态 。 这 是 一 个 非常 重要 的 标志 字段 。 下 面 ， 笔 者 通过 一 个 C 语言 的 实 
例 来 说 明 m iState 字段 的 作用 ， 如 表 4-1 所 示 。 
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表 4-1 递归 声明 的 实例 
A B C 
struct aa struct aa TYPE 
{ aa=^Node; 
int al,a2; int al,a2; Node=RECORD 
aa a3; aa* a3; al:INTEGER; 
. }; a2:aa; 


END; 


表面 上 看 ，A 列 
样 的 声明 形式 。 由 于 
声明 ”。 实 际 上 ， 包 
准确 计算 这 种 类 型 


的 声明 并 没有 人 
结构 aa 的 a3 字段 的 
括 C、Pascal 等 绝 大 多 数 程序 设计 语言 都 不 支持 递归 声明 。 因 
的 变量 所 需 的 存储 空间 大 小 ， 那 么 ， 也 就 无 法 进行 存储 空间 的 分 配 了 。 解 决 


类 型 是 


aa 本 身 ， 


么 错误 。 可 上 机 调试 后 ， 读 者 会 发 现 ，C 语言 并 不 允许 这 
因此 ， 也 将 这 种 声明 形式 称 关 
为 编译 器 无 法 


“递归 


这 个 问题 的 方法 并 不 复杂 ， 编 译 器 在 处 理 一 个 类 型 时 ， 只 需 在 类 型 信息 表 中 作 一 个 标记 ， 标 识 


该 类 型 是 否 已 经 构造 完 上 
aa a3 时 ， 发 现 
无 法 根据 类 型 信息 表 


aa 类 型 本 身 并 没 


E。 如 果 类 型 没有 构造 完毕 ， 
完成 构造 ， 


则 不 允许 对 其 引 月 


这 时 编译 器 会 给 


剖 断 类 型 是 否 已 构造 完成 ， 因 此 笔者 在 类 型 


段 ， 就 是 用 卫 


m iState 置 为 1， 否则 为 0。 然 而，B 列 的 声明 形式 却 是 特例 。 在 C 语言 的 结构 中 ， 


标识 该 类 型 信息 是 否 已 


名 成 构造 。 


了 m iState 
Tf 后 ， 才 将 


昌 。 例 如 ， 编 译 器 分 析 到 
错误 提示 。 不 过 ， 语 义 子 程序 
信息 表 项 中 增加 
只 有 当 语 义 子 程序 完成 整个 类 型 分 


ji 


子 - 


允许 声明 指 


向 本 身 的 指针 字段 。 由 于 指针 字段 占用 的 存储 空间 大 小 是 由 目标 机 决定 的 ， 与 其 体 指向 的 类 型 
> 这 种 声明 并 不 会 影响 编译 器 的 存储 分 配 。 虽 然 不 同 的 程序 设计 语言 对 这 种 声明 的 


无 关 ， 


因此 ， 


文 持 不 尽 相 同 ， 但 是 这 利 


时 应 该 给 予 无 效 类 型 名 提示 。 不 过 ， 在 处 理 


结构 体内 声明 ， 但 支持 


基 类 型 是 否 


已 声明 ， 


如 C 列 的 声明 。 在 这 种 情况 ] 
明 为 例 ， 在 分 析 aa=^Node 时 ， 实 际 上 ，Node 类 型 名 是 未 知 的 ， 按 编译 器 一 贯 的 处 理 方式 ， 这 
指针 类 型 (变量 ) 声明 时 ， 编 译 器 并 不 会 立即 判断 


而 通常 是 在 事后 某 一 特定 时 刻 


现 Node 类 型 的 声明 ， 则 依然 会 报告 出 错 信息 。 


m iSize: 


占 


极其 重要 的 意义 。 


下 面 


存储 空间 的 大 小 。 在 编 i 
需 存储 空间 的 大 小 ， 以 便 进行 存储 分 配 。 因 此 ， 这 个 字段 在 存储 分 配 及 目标 代码 生成 


行 判断 。 如 果 编 译 器 无 法 从 后 


再 来 谈 谈 记录 类 型 字段 列表 、 数 组 类 型 的 维度 列表 的 结构 。 


记录 类 型 字段 列表 并 不 是 全 局 符号 


表 。 通 常 ， 


个 记录 类 型 结 点 有 


字段 列表 ， 这 与 枚 举 类 型 信息 表 是 不 同 的 。 声 明 形式 如 下 : 


【声明 4-7】 
struct FieldInfo:ObjectInfo 


{ 


int m iLink; 

int m iSize; 

string m_SZVarFieldFlag; 
string m_szVarFieldConst; 
int m iState; 

int m_ iOffset; 


声明 形式 却 是 常见 的 。 在 Pascal 语言 中 ， 不 允许 像 C 语言 那样 直接 在 


下 ， 编 译 器 通常 会 作 特 殊 处 理 。 以 C 列 声 


续 声明 中 发 


圣 过 程 中 ， 编 译 器 必须 能 准确 计算 该 类 型 变量 所 
h 具 有 


张 独立 的 记录 类 型 
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编译 器 设计 之 路 


FieldInfo(); 


上 


m_iLink: 字段 类 型 指针 。 字 段 的 类 型 可 能 是 非常 复杂 的 ， 因 此 ， 字 段 类 型 与 变量 类 型 


的 描述 形式 是 完全 一 致 的 。 


m_iSize: 字段 占用 的 字 节 数 。 
m szVarFieldFlag: 可 变 部 分 的 标志 字段 名 。 先 来 看 一 个 简单 的 例子 ， 如 图 4-3 所 示 。 


RECORD 
a:CHAR:; 
CASE b:CHAR OF 
1:(b1,b2:CHAR); 
2:(b3:BYTE) 
END: 
CASE c:CHAR OF pb3 
1:(c1:CHAR); pb2 
3:(c2:BYTE); c 
END; c2 cl 
END; 
a) b) 


pa 


图 4-3 ”可 变 字段 存储 分 配 示意 
a) 代码 b) 存储 分 配 情况 


这 里 ， 和 暂且 将 CASE 结构 后 的 字段 称 为 “可 变 部 分 的 标志 字段 ”， 它 也 是 一 个 独立 的 字 
段 。 从 存储 分 配 的 情况 来 分 析 ， 实 际 上 ， 编 译 器 将 一 组 CASE 结构 视 为 一 个 共用 体 进行 分 


配 。 不 同 CASE 


共用 同一 片 存储 区 域 ， 例 如 ，(b1,b2) 与 (b3) 就 是 共用 一 片 存储 区 域 。 而 字段 组 内 的 字段 分 量 


则 不 共用 存储 区 
组 ， 也 就 是 说 ， 


身 却 没有 实际 意 


结构 之 间 是 独立 分 配 存储 空间 的 ， 并 不 是 共用 的 。CASE 标号 之 间 的 字段 组 


域 ， 例 如 ，bl 与 b2 都 是 独立 分 配 存储 空间 的 。CASE 标号 仅 用 于 标识 字段 
一 组 CASE 结构 内 的 标号 相同 的 字段 组 成 一 个 字段 组 。 然 而 ，CASE 标号 本 
义 ， 将 上 例 中 的 标号 “3:” 改 成 “4:” 是 没有 区 别 的 。 从 编译 器 的 角度 而 


言 ， 并 不 关注 CASE 标志 字段 与 标号 本 身 。 编 译 器 只 需要 对 记录 类 型 中 的 字段 组 进行 标识 ， 


并 且 记 录 哪 些 字段 组 可 以 共用 同一 片 存储 区 域 即 可 。 在 记录 类 型 信息 表 中 ， 就 是 使 用 
m_szVarFieldFlag 字段 来 标识 哪些 字段 隶属 于 同一 个 可 变 部 分 。 在 Neo Pascal 中 ， 存 储 的 就 
是 CASE 标志 字段 的 名 字 ， 如 上 例 中 的 b、c。 


m_szVarFieldConst: 可 变 字段 的 标号 。 在 Neo Pascal 中 ， 该 字段 存储 的 就 是 CASE 标号 
的 值 ，m 0 m_szVarFieldConst 都 相同 的 记录 和 集 就 表示 一 个 字段 组 ， 字 上 段 组 内 


部 的 分 量 是 不 


共用 存储 区 域 的 。 


m_iState; 处 理 状态 。 将 在 后 续 章 节 中 详细 讨论 。 


m_iOffset: 


字段 偏 移 量 。 即 字段 首 地 址 相对 于 记录 首 地 址 的 字 节 偏 移 量 。 


下 面 ， 再 来 看 看 数组 类 型 的 维度 列表 。 数 组 类 型 的 维度 列表 就 是 用 于 描述 数组 维度 的 上 


限 、 下 限 信息 的 辅助 符号 表 。 与 记录 类 型 字段 列表 类 似 ， 它 也 不 是 全 局 符号 表 ， 一 个 数组 类 


型 有 一 张 独 立 的 维度 列表 。 与 字段 列表 的 结构 相 比 ， 维 度 列 表 要 简单 得 多 ， 只 有 上 限 、 下 限 


两 个 字段 信息 。 
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声明 形式 如 下 : 


【声明 4-8】 
struct ArrayInfo 
{ 
int m_iStart; 
int m_iEnd; 
ArrayInfo(); 
}; 


5. 枚 举 信 息 表 


符号 表 系 统 | 第 4 党 | 


在 介绍 类 型 信息 表 时 ， 已 经 提 到 了 枚 举 信息 表 。 枚 举 信息 表 主 要 
举 常 量 信息 。 


于 存储 枚 举 类 型 的 枚 


与 C 语言 相 比 ，Pascal 的 枚 举 类 型 简单 一 些 。 因 此 ，Neo Pascal 的 枚 举 信 息 表 


结构 也 比较 简单 。 此 处 不 再 详细 给 出 其 声明 形式 ， 请 读者 自行 参考 Neo Pascal 源 代码 。 


6. 标号 信息 表 


标号 信息 表 主 要 用 于 存储 输入 源 程序 的 标号 信息 。 虽 然 Pascal 创始 人 Wirth 教授 并 不 提 


倡 


使 


有 goto 语句 ， 甚 至 在 其 结构 化 程序 设计 思想 中 也 意 力 反对 goto 语句 ， 不 过 ，Pascal 语 


言 仍 然 提供 goto 及 标号 机 制 。Pascal 规定 标号 使 用 前 必须 进行 声明 ， 这 与 C 语言 是 不 同 的 。 


当然 ， 值 得 注意 的 是 ， 标 号 信息 表 中 不 仪 包含 用 户 声明 的 标号 ， 还 需要 包含 


的 临时 标号 。 声 明 形式 如 下 : 


位 


【声明 4-9】 
struct LabelInfo:ObjectInfo 


{ 
bool m bDef 
bool m bUse; 


上 
m_szName: 标号 名 。 
m_bDef: 是 否 已 定义 。 在 Pascal 中 ， 如 果 


j 户 声明 了 一 个 标号 ， 那 么 ， 该 标号 在 过 程 


l 译 器 自动 生成 


E、 地 


体内 的 位 置 定义 点 的 个 数 必须 小 于 或 等 于 1。 也 就 是 说 ，Pascal 允许 声明 的 标号 没有 具体 的 


标号 的 位 置 定义 点 时 ，; 


个 标号 后 却 不 使 用 。 对 于 未 使 


置 定义 点 ， 当 然 ， 这 种 标号 是 不 允许 被 goto 语句 使 用 的 。 在 分 析 源 程序 的 过 程 中 ， 发 现 一 个 
各 标号 信息 表 中 对 应 的 表 项 的 m_bDef 字段 置 tue， 以 免 重复 。 


m_bUse: 是 否 已 使 用 。 标 号 的 使 用 是 根据 源 程序 而 定 的 。Pascal 语言 允许 用 户 声明 了 一 


j 的 标号 ， 通 常 ， 编 译 器 会 在 分 析 过 程 中 予以 标识 ， 便 了 


后 端 


优化 处 理 。 当 源 程序 中 goto 语句 使 用 了 一 个 标号 后 ， 编 译 器 则 将 标号 信息 表 中 对 应 的 表 项 


的 m_bUse 字段 置 tue， 表 示 该 标号 已 被 使 用 。 

至 此 ， 已 经 分 析 了 Neo Pascal 的 符号 表 结 构 。 符 号 表 的 结构 对 于 理解 编译 器 的 设计 具有 
极其 深远 的 意义 。 因 此 ， 笔 者 认为 有 必要 通过 完整 的 实例 分 析 Neo Pascal 的 符号 表 系 统 ， 项 
望 读者 能 结合 下 一 小 节 的 实例 深刻 理解 符号 表 的 设计 思想 。 


4.2.3 符号 表 的 实例 分 析 


是 比较 简单 的 。 为 了 突 


由 于 Neo Pascal 是 基于 C++ 开发 的 ， 较 之 早期 的 经 典 乡 


译 器 ，Neo Pascal 的 符号 表 系 统 


符号 表 的 核心 内 容 ， 笔 者 把 更 多 的 与 编译 器 设计 无 关 的 实现 细节 交 


109 


B ER i 
罗 。 编译 器 设计 之 路 
[ 
由 C++ 编译 器 完成 了 。 
例 4-2 符号 表 实例 (图 4-4)。 


PROGRAM aa(input,output); 
LABEL L1,L2: 
CONST 
cl=123; c2=12.3; 
TYPE 
tl=RECORD 
t1,t2:INTEGER: 
END: 
VAR 
v1:ARRAY [1..10] of INTEGER:; 
v2:(enum1,enum?2); 
BEGIN 


和 m_szName: 
m_szName: m_szName: . 


- b Dae . 
m_iProcIndex: m_iProcIndex: m-iProolndex: 
m_ConstType: 


m _eBaseType: 
m_iSize: 


JeUse: als _szName: 
记录 类 型 字段 列表 m_szName: noname0 m_iProcIndex: 
| 记录 类 型 字段 到 表 m_iProcIndex: 0 m,_szVal: 


m_szName: b m_eDataType: T_INTEGFR mm _ConstType: 
m_iProcIndex: m_eBaseType:T_INTEGER 


m_szName: > Ea dex: m_iProcIndex: 
m_iProcIndex: 0 本 m_szVal: 
m_iLink: 3 _eKank. m_ConstType: IN 
m_eDataType: 加 als m_StoreType: 
m_iArrayInfo: iVal: 


m_iProcIndex: 
m_szVal: 


mi gid _bRef: | m_ConstType: 
m_iLink: 


m_eDataType: 
数组 类 型 维度 列表 m_eBaseType: TJ 
iStart: | -一 一 一 一 m_szName: ”ENUMI 
过 程 信息 表 m_iProcIndex: 0 
m_szName: ame: 


as 时 ENUM 
m_iProcIndex: 0 m_szName: aa esType: T_ ENUM 
m_iLink: m_eRank: Main 蓝 | : 4 
m_eDataType: 工 ENUM m_eType: Procedure 


m_szName: ENUM2 
m_ iProcIndex: 0 


枚 举 信息 表 


m_szName: ENUMI 
m_iProcIndex: 0 


ENUM 


m_szName: ENUM2 
m_iproclndex: 0 


m_szName: 
m_iProcIndex: 


4-4 符号 表 实例 示意 图 


110 


在 图 4-4 中 ， 用 虚线 箭头 表示 位 序 编 


点 的 表 项 。 


实 线 箭头 表示 箭 


Hd 


A 
1 


头 终点 的 


省 略 了 m_iProcIndex 与 过 程 信息 表 的 虚线 箭头 。 


符号 表 隶 属于 箭头 起 点 的 表 项 。 为 了 突出 重点 ， 图 


符号 表 系 统 | 第 4 学 


号 方式 的 指针 ， 即 箭头 起 点 的 位 序 编号 指向 箭头 终 


4-4 


读者 可 能 有 疑问 ， 枚 举 类 型 的 枚 举 常 量 一 共 才 两 个 ， 为 什么 在 枚 举 信息 表 中 有 三 个 表 项 


呢 ? 实际 上 ， 最 后 一 个 表 项 是 结束 标记 。 类 型 信息 表 上 
表 中 的 起 始 位 置 ， 却 没有 记录 结束 位 置 ， 这 可 能 会 给 编译 器 处 理 枚 举 类 型 带 来 不 便 ， 因 
蜡 设 置 一 个 结束 标记 。 这 样 ， 从 类 型 信息 表 的 m_iLink 


在 枚 举 信息 表 


中 ， 


笔者 为 每 个 枚 举 关 玫 
所 指向 的 位 置 起 直到 结束 标记 之 间 的 枚 举 值 就 是 该 枚 妆 
通过 以 上 的 分 析 ， 读 者 对 Neo Pascal 


的 m_iLink 仅 指出 了 枚 举 值 在 枚 举 信息 


此 ， 


太 夺 上品 


法 详细 举例 说 明 符 号 表 的 各 种 情 
码 观察 符号 表 ， 这 是 最 简单 且 直 观 的 方法 。 


|4.3 声明 部 分 的 实现 


从 本 章 开始 ， 读 者 将 大 量 接触 Neo Pascal 的 源 代码 。 在 分 析 源 代码 之 前 ， 笔 者 想 与 
分 享 一 点 个 人 体会 。 在 阅读 了 一 些 编译 器 方面 的 书籍 后 ， 发 现 语义 分 析 与 中 间 代 码 生 成 
不 少 教材 往往 轻 描 汉 写 或 是 泛泛 而 谈 ， 令 初学 者 找 不 到 
。 当 然 ， 笔 者 不 可 否认 一 点 ， 详 细 阐 述 语义 分 析 与 中 间 代 码 生成 构造 并 不 容易 。 它 是 由 
一 组 庞大 且 耦 合 的 语义 子 程序 构成 的 ， 给 编写 教材 带 来 了 困难 。 因 


不 是 国内 编译 原理 教材 的 讨论 重点 ， 
头绪 


实际 编译 器 的 源 代码 可 


怠 日 
有 十 


里 


类 型 的 所 有 枚 举 党 


符号 表 结 构 应 该 有 了 感性 的 认识 了 。 团 于 篇 幅 ， 无 
况 。 如 果 尚 有 不 明之 处 ， 读 者 可 以 直接 调试 Neo Pascal 源 代 


读者 
= 


最 佳 的 学 习 方 法 。 当 然 ， 阅 读 源 代码 可 


此 ， 笔 者 相信 阅读 与 分 析 
能 会 比较 痛苦 ， 笔 者 对 此 


用 会 


也 深 有 体会 。 不 过 ， 想 深入 学 习 系 统 软件 (操作 系统 、 编 译 占 、 网 络 协 议 等 ) 的 读者 可 能 不 


得 不 在 绝望 中 寻找 希望 。 与 其 他 教材 上 的 伪 代 码 片 段 相 比较 ， 本 书 的 优势 在 于 Neo Pascal 是 
结合 本 书 的 分 析 阅 读 源 代码 一 


一 个 完整 的 可 运行 、 


调试 的 编译 器 。 读 者 
Neo Pascal 语义 分 析 器 是 由 100 多 个 语义 子 程序 构成 ， 


定 能 事半功倍 。 


分 析 器 驱动 ， 即 语法 制导 。 
理 、 了 生成 。 其 中 ,，IR 4 
管理 部 分 的 源 代码 ， 而 下 


码 规模 在 3000 行 左 右 ， 对 于 不 少 读者 而 言 ， 
大 ， 相 信和 能 一 气 呵 成 读 完 3000 行 枯燥 代码 的 读者 不 会 太 多 。 因 


民 据 完成 的 功能 不 同 ， 


语义 子 程序 通常 分 为 两 个 部 分 : 
E 成 又 可 以 细 化 为 语句 生成 和 表达 式 生成 。 本 小 节 主 要 分 析 
生成 部 分 析 源 代码 将 在 第 5、 


而 语义 子 程序 的 调用 完全 由 语法 


符号 表 管 
符号 表 


6 章 中 详 述 。 整 个 语义 分 析 器 的 源 代 


直接 给 出 完整 的 源 代码 及 注释 可 能 意义 并 不 


此 ， 笔 者 将 语法 结构 《〈 即 文 


法 ) 进行 适当 分 类 ， 然 后 ， 详 细 分 析 该 结构 相关 的 语义 子 程序 。 不 过 ， 这 是 一 项 艰难 的 工 
作 ， 因 为 语法 结构 并 不 存在 明显 的 界线 ， 可 能 有 时 并 不 是 特别 精确 ， 请 读者 谅解 。 
4.3.1 相关 数据 结 

前 面 已 经 详细 讲述 了 符号 表 的 相关 结构 与 设计 。 符 号 表 是 整个 编译 器 的 中 心 数据 库 ， 其 
重要 性 不 言 而 喻 。 实 际 上 ， 除 了 符号 表 以 外 ， 语 义 分 析 器 还 涉及 一 些 全 局 数据 结构 。 这 些 数 


据 结 构 主要 是 辅助 语义 分 


据 结 构 。 


财 


器 完成 相关 的 分 析 功 能 的 。 


首 


7C， 


重要 的 数据 结构 曾 


是 符号 表 。 


中 ， 大 部 分 是 栈 结构 ， 这 主要 是 由 


下 面 就 给 出 符号 表 


于 Neo Pascal 是 基于 自 上 而 下 的 语法 分 析 方 法 构造 语法 分 析 嚣 的。 下面， 就 来 谈 谈 相关 的 数 


完整 声明 。 
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编译 器 设计 之 路 

4-1 SymbolTbl.h 

class CSymbolTbl 

{ 

public: 
vector<ProcInfo> ProcInfoTbl; /过 程 信息 表 
stack<int> ProcStack; /过 程 分 析 栈 
map<int,LabelInfo> LabelInfoTbl; /标号 信息 表 
map<int,ConstInfo> ConstInfoTbl; /常量 信息 表 
map<int,TypeInfo> TypeInfoTbl; /类 型 信息 
vector<EnumInfo> EnumInfoTbl; / 枚 举 类 型 信息 表 
map<int, VarInfo> VarInfoTbl; /变量 信息 表 
vector<ProcDefToken> ProcDefTokenTbl; /过 程 原型 单词 流 表 
vector<TypeSysInfo> TypeSysTbl; /类 型 系统 表 
vector<UseFile> UseFileTbl; // 包 含 文件 信息 表 
vector<AsmPara> AsmParaTbl; /汇编 参数 信息 表 

public: 
/默认 构造 函数 。 
CSymbolTbl(void); 
// 检 索 标号 信息 表 函 数 。 检 索 成 功 ， 返 回 标号 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchLabelInfoTbl(int iProcIndex,string sName); 
// 检 索 常量 信息 表 函 数 。 检 索 成 功 ， 返 回 常量 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchConstInfoTbl(int iProcIndex,string SName); 
// 检 索 类 型 信息 表 函 数 。 检 索 成 功 ， 返 回 类 型 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchTypeInfoTbl(int iProcIndex,string SName,bool bState=true); 
// 检 索 枚 举 类 型 信息 表 函 数 。 检 索 成 功 ， 返 回 枚 举 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchEnumInfoTbl(int iProcIndex, string sName); 
// 检 索 过 程 信息 表 函 数 。 检 索 成 功 ， 返 回 过 程 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchProcInfoTbl(string szName,bool bIsSForward=true); 
/检索 类 型 系统 表 函 数 。 检 索 成 功 ， 返 回 类 型 系统 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchTypeSysTbl(int IOp,int iOplType,int IDp2Type=0); 
/检索 变量 信息 表 函 数 。 检 索 成 功 ， 返 回 变量 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchVarInfoTbl(int iProcIndex,string szName); 
/检索 包 含 文件 信息 表 函 数 。 检 索 成 功 ， 返 回 包含 文件 信息 所 在 的 表 项 位 序号 。 检 索 失 败 ， 返 回 -1。 
int SearchUseFileTbl(string szName); 
// 判 断 两 个 过 程 原型 单词 流 是 否 完全 一 致 。 
bool ProcDefTokenTblCompare(vector<CToken> Listl,vector<CToken> List2); 
// 注 册 常 量 函数 。 将 一 个 常量 登记 加 入 常量 信息 表 。 ( 重 载 形式 ) 
int RecConstTbl(const string szValue,int iType); 
// 注 册 常 量 函数 。 将 一 个 常量 登记 加 入 常量 信息 表 。 ( 重 载 形式 ) 
int RecConstTbl(const ConstInfo Value); 
// 注 册 集 合 常量 函数 。 将 一 个 集合 常量 登记 加 入 常量 信息 表 。 
int RecConstSetTbl(const string szValue); 
// 计 算 类 型 占用 存储 空间 大 小 。 
int CalcTypeSize(int iPos); 
// 检 查 指针 声明 是 否 合法 。 
bool PtrCheck(int &iPos); 


符号 表 系 统 第 4 彼 


46 // 申 请 一 个 类 型 为 eStoreType 的 临时 变量 。 返 回 临时 变量 在 变量 信息 表 中 的 位 序号 。 ( 重 载 形式 ) 
47 int GetTmpVar(int iProcIndex,StoreType eStoreType); 

48 // 申 请 一 个 临时 变量 。 返 回 临时 变量 在 变量 信息 表 中 的 位 序号 。( 重 载 形式 ) 
49 int GetTmpVar(int iProcIndex); 

50 // 申 请 一 个 临时 变量 。 返 回 临时 变量 在 变量 信息 表 中 的 位 序号 。 〈 重 载 形式 ) 
Sl int GetTmpVar(int iProcIndex,OpType eOpType); 

52 // 复 制 一 个 变量 ， 作 为 临时 变量 。 返 回 临时 变量 在 变量 信息 表 中 的 位 序号 。 ( 重 载 形式 ) 
53 int CopyTmpVar(int iValldx); 

54 /获取 类 型 描述 的 实际 类 型 。 即 略 去 类 型 链 中 的 T_USER 类 型 元 。 

3 int GetRealType(int iTypeLink); 

56 // 申 请 一 个 临时 标号 。 

37 int GetTmpLabel(int iProcIndex); 

58 /判断 变量 是 否 为 形 参 变量 。 

59 bool IsVarPara(string szName,int iProcIndex); 

60 // 判 断 变量 是 否 为 临时 变量 。 

01 bool IsTmpVar(int iPose); 

62 /打印 及 列表 。 

63 void PrintIR(); 

64 // 判 断 变量 的 类 型 是 否 为 过 程 。 

65 bool IsProcVar(string szName); 

66 /打印 基本 块 信息 。 

67 void PrintBasicBlock(); 

68 /清空 符号 表 。 

09 void Clear(); 

70 // 添 加 标号 。 

71 void AddLabel(LabelInfo Tmp); 

从 // 添 加 常量 。 

各 void AddConst(ConstInfo Tmp); 

74 /添加 类 型 。 

$3 void AddType(TypeInfo Tmp); 

76 // 添 加 变量 。 

YW void AddVar(VarInfo Tmp); 

78 // 默 认 析 构 函 数 。 

79 ~CSymbolTbl(void); 

80 )}; 


CSymbolTbl 的 数据 成 员 也 就 是 Neo Pas 


cal 的 符号 表 ， 而 其 中 的 成 员 函 


是 维护 符号 表 及 处 理 符号 ， 在 此 ， 读 者 先 不 必 深 究 其 实现 细节 。 


4.3.2 ” 主 程 序 首部 声明 


数 主要 的 作用 就 


主 程序 首部 声明 是 比较 简单 的 。 在 处 理 这 部 分 声明 时 ， 编 译 器 需要 收集 的 信息 仅仅 是 主 


被 调用 的 语义 子 程序 ， 一 些 初始 化 工作 也 是 上 


程序 名 而 已 ， 也 就 是 program 关键 字 后 面 的 一 个 标识 符 信息 。 同 时 ，semantic001 也 是 第 一 个 


日 其 完成 的 。 至 于 其 后 的 “( 标 识 符 列 表 )” 部 分 


在 Neo Pascal 中 并 没有 实际 的 语义 ， 仅 仅 是 为 了 兼容 标准 Pascal 文法 而 设置 的 。 因 此 ， 并 不 


需要 专门 的 语义 子 程序 来 分 析 处 理 。 
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程序 4-2 semantic.cpp 
相关 文法 : 
程序 头 一 program 标识 符 001( 标识 符 列表 ); 


1 bool semantic001() 
2 有 | 
3 semantic000(); 
4 ProcInfo Tmp; 
9 Tmp.m szName=TokenList.at(iListPos-1).m szContent; 
6 Tmp.m eRank=ProcInfo::Rank::Main; 
区 Tmp.m eType=ProcInfo::Type::Procedure; 
8 Tmp.m ParaTbl.clear(); 
9 SymbolTbl.ProcInfoTbl.push_ back(Tmp); 
10 SymbolTbl.ProcStack.push(SymbolTbl.ProcInfoTbl.size()-1); 
11 ildListFlag.push(0); 
12 iTypeFlag.push(0); 
13 return true; 
14 } 


第 3 行 : 调用 semantic000 函数 ， 进 行 初始 化 。 主 要 涉及 符号 表 、 辅 助 全 局 变量 等 。 
第 5~9 行 : 获取 主 程序 名 。 在 获取 主 程序 名 后 ， 生 成 过 程 信息 表 项 ， 并 加 入 过 程 信息 


表 中 。 


第 10 行 : 将 当前 过 程 指针 压 入 ProcStack 栈 。ProcStack 的 栈 顶 元 素 就 是 月 


于 标识 当前 


i 


正在 分 析 的 过 程 。 设 置 ProcStack 栈 的 主要 意图 就 是 解决 过 程 欲 套 声明 的 问题 。 与 C 语言 不 
同 的 是 Pascal 允许 舱 套 声明 过 程 。 虽 然 Neo Pascal 并 不 支持 过 程 坐 套 声明 ， 但 是 主 程序 中 级 


套子 过 程 的 形式 还 是 需要 兼容 的 。 


第 11 一 12 行 主要 完成 标志 处 理 ， 将 在 后 续 章节 中 详解 ， 这 里 可 以 先 略 过 。 
4.3.3” 包 合 文 件 声明 部 分 
结构 化 、 模 块 化 程序 设计 的 思想 最 早 就 是 由 Pascal 的 创始 人 Wirth 教授 提出 来 的 ， 


此 ， 在 多 文件 编译 方面 ，Pascal 是 有 一 定 优势 的 。 实 际 上 ，Pascal 的 USES 关键 字 与 C 话 
言 的 #include 从 功能 上 讲 是 比较 类 似 的 。 不 过 ， 从 编译 器 实现 的 角度 而 言 ， 却 存在 一 定 的 


差别 。 


单 文件 源 程序 的 时 代 已 经 渐渐 远 去 了 ， 对 于 现代 编译 器 而 言 ， 处 理 多 文件 源 程序 是 一 个 


必 备 的 能 力 。 这 里 ， 笔 者 觉得 有 必要 简单 谈 谈 多 文件 编译 的 相关 内 容 。 


读者 在 编写 多 文件 程 


序 时 ， 可 能 并 没有 仔细 考虑 过 多 文件 编译 的 内 核 。 多 文件 编译 的 方法 很 多 ， 最 常见 的 模式 有 


以 下 两 类 : 合并 后 编译 、 编 译 后 合并 。 


所 谓 “ 合 并 后 编译 ”， 就 是 在 编译 前 或 编译 过 程 中 某 一 适当 的 时 刻 ， 将 多 个 文 从 


需求 合并 为 一 个 源 文件 ， 然 后 再 由 编译 器 编译 此 文件 。 此 时 ， 多 文件 形式 对 于 编译 过 程 


按 


是 完全 透明 的 。 读 者 熟悉 的 编译 预 处 理 就 是 如 此 。 在 正式 编译 之 前 ， 先 由 预 处 理 器 将 包 


含 的 头 文件 直接 合并 入 某 一 主 文件 中 。 然 后 ， 再 


mm 
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编译 器 进行 统一 编译 。 值 得 注意 


是 ， 这 里 仅 讨 论 编 


然 ， 程 序 员 可 以 通过 一 些 特殊 的 编 


C 文件 〈 不 是 头 文件 ) 包含 入 主 程序 文件 ， 在 这 种 情况 下 ，C 编译 器 就 会 在 纺 


时 将 所 有 的 C 文件 合并 到 主 程序 文件 
效 的 处 理 手段 ， 不 过 ， 
括 Neo Pascal) 都 没有 真正 意义 上 的 预 处 理 器 ， 因 此 ， 源 文件 合并 的 工作 通常 是 ! 


器 完成 的 
所 谓 


并 不 是 所 有 纺 


文件 ， 


再 由 汇编 


然 这 种 方式 也 存在 一 些 缺 点 ， 例 如 ， 某 些 源 程 
段 才 能 发 现 ， 但 对 结构 化 思想 


这 


种 方式 是 必然 之 选 


进行 归 类 。 


编译 预 处 理 。 这 种 方式 的 人 


译 器 都 


月 
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译 ?9 


“合并 后 纺 


译 预 处 理 ， 并 不 表示 C 编译 器 默认 就 是 这 样 完成 多 文件 编译 的 。 当 


程 技巧 ， 使 C 编译 器 使 的 方式 进行 


编译 。 如 果 程序 员 在 工程 项 目 中 只 包含 一 个 主 程序 文件 ， 而 使 用 #include 方式 将 其 他 的 


中 ， 再 进行 统 


“编译 后 合并 ” 以 Windows 环境 为 例 ， 就 是 将 多 个 源 程序 分 别 纺 
器 生成 相应 的 obj 文件 ， 最 后 ， 由 


纺 


数 Pascal 编 


纺 


译 预 处 理 
译 。 编 译 预 处 理 器 是 一 种 比较 有 
有 预 处 理 器 的 。 大 多 


译 


译 器 《〈 包 


译 成 汇编 


链接 器 将 多 个 obj 文件 链接 成 可 执 
行文 件 。 与 前 者 相 比 ， 这 种 方式 的 主要 优点 在 于 比较 容易 实现 部 分 编译 的 需求 。 虽 


而 言 ， 


这 


。 库 文件 的 源 程序 通常 
程序 根据 需要 选择 使 用 。 随 着 obj 数量 的 ] 


的 
日 


实际 上 ， 就 是 将 obj 文件 按 一 定格 式 组 
的 lib 文件 。 大 多 数 C 编译 器 都 是 采用 这 种 方式 进行 编译 生成 的 ， 虽 然 它 们 也 文 持 


求 


语言 本 身 文 持 纺 
承认 其 在 模块 化 方面 


号 库 。 虽 


Vs 


七 


口 » 


并 不 支持 纺 
备 受 争议 的 重要 原 


写 库 文 件 ， 这 可 
因 之 一 。 当 然 ， 


构 ， 最 终 实 现 了 这 一 功能 。 


点 明显 ， 但 是 对 语言 的 语法 结构 是 有 
然 Pascal 的 模块 化 设计 思想 堪 称 
改 得 不 够 。 避 开 某 些 细 柜 末节 不 谈 ， 就 标准 Pascal 本 身 而 


怠 日 
用 征 


出 可 一 种 质 的 飞跃 。 最 终 ， 


织 合 


定 要 求 的 ， 


经 典 


一 ?7 


序 的 错误 可 能 会 被 隐藏 ， 直 到 链接 阶 
方式 的 提 
方式 就 演化 形成 了 库 文 件 的 概念 。 由 于 库 函 数 儿 乎 不 可 能 以 源码 形式 公开 ， 这 
经 编译 、 汇 编 后 生成 obj 文件 ， 然 后 用 户 
加 ， 人 们 开始 考虑 着 手 按 功 能 将 obj 文件 
并 成 一 个 文件 ， 也 就 是 常见 


已 要 


但 笔者 不 得 不 


能 就 是 其 先天 的 不 足 之 处 。 同 时 ， 也 是 Pascal 
一 些 商用 Pascal 编译 器 扩展 了 相关 的 语法 结 


虽然 Neo Pascal 支持 多 文件 编译 ， 但 也 有 


件 《〈 不 是 主 程序 所 在 的 程序 文件 ) 中 声 


Delphi 等 商用 编 


译 器 有 所 不 同 。 


关于 多 文人 


细节 。 前 面 ， 


进行 统一 编译 的 。 
语法 结构 ， 和 否则 编 
在 USES 声明 的 描述 ， 而 有 


关 描 述 。 


在 Pascal 语言 中 ，USES 通常 只 
入 点 ， 这 与 #include 指令 也 是 不 同 的 。 原 
函数 )， 那 么 ， 
入 点 应 该 位 于 过 程 函数 声明 部 分 之 前 。 


内 容 〈 过 程 、 


编译 的 理 


译 器 将 无 法 处 理 。 


定 的 限制 。Neo Pascal 只 允许 用 户 在 非 主 文 


不 允许 声明 全 局 常量 、 变 量 等 。 这 与 


癌 
延 


用 了 
因 非 常 简单 ， 


2 过 


说 明 包含 文件 的 列表 ， 但 它 并 不 是 合并 文件 的 插 
如 果 在 USES 声明 处 插入 文件 的 实体 


口 


后 的 程序 结构 并 不 是 


记录 包含 文件 的 列表 ， 以 备 后 用 即 可 。 


个 合法 的 Pascal 程序 。 而 合法 的 插 


论 先 谈 到 这 里 ， 下 面 详细 分 析 一 下 Neo Pascal 相关 实现 的 
己 经 了 解 了 Neo Pascal 的 多 文件 编 
既然 要 在 编译 过 程 中 完成 多 文件 合并 ， 


译 主要 是 由 编译 器 进行 动态 合并 后 
那么 就 必须 将 其 视 为 一 种 
因此 ， 在 Neo Pascal 语法 体系 (BNF) 中 ， 存 


EC 语言 标准 文法 中 并 没有 关于 #include 预 处 理 指令 的 相 


9 


实际 上 ， 语 义 子 程序 在 分 析 USES 声明 结构 时 ， 只 需 
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程序 4-3 semantic.cpp 
相关 文法 : 
包含 文件 说 明 ”一 uses 093 标识 符 列表 094 ; 


1 bool semantic093() 
2 国 | 
3 iIdListFlag.push(7); 
4 return true; 
E } 
6 bool semantic094() 
7 国 | 
8 ildListFlag.popO; 
9 return true; 
10 } 


以 上 产生 式 中 只 有 semantic093、semantic094 两 个 语义 子 程序 ， 而 且 从 这 两 个 
语义 子 程序 来 看 ， 除 了 对 iIdListFlag 栈 进行 了 一 次 入 栈 、 出 栈 的 操作 外 ， 根 本 没有 
完成 其 他 任何 语义 动作 。 这 里 ， 先 不 必 关 注 iIdListFlag 栈 的 作用 ， 稍 后 会 作 详 细 介 
绍 。 读 者 不 难 发 现 ， 产 生 式 中 的 “标识 符 列表 ”是 一 个 非 终 结 符 。 也 就 是 说 在 推导 
分 析 的 过 程 中 ， 如 果 “ 标 识 符 列表 ”推导 得 到 的 产生 式 右 部 含有 语义 子 程序 ， 它 们 
同样 会 被 编译 器 执行 。 从 Neo Pascal 文法 来 说 ,“ 标 识 符 列 表 ” 仅 有 的 候选 产生 式 
如 下 : 


【文法 4-2】 
标识 符 列表 ”一 标识 符 012 标识 符 列表 1 


那么 ， 随 着 推导 过 程 的 深入 进行 ， 编 译 器 一 定 会 执行 semantic012 语义 子 程序 。 同 样 
地 ， 由 于 “标识 符 列 表 1” 也 是 一 个 非 终结 符 ， 它 的 相关 语义 子 程序 也 会 被 调用 。“ 标 识 符 列 
表 1” 的 候选 式 有 如 下 两 个 : 


【文法 4-3】 
标识 符 列表 1 一 ,标识 符 012 标识 符 列表 1 
[3 

如 果 在 实际 语法 分 析 过 程 中 ， 选 择 第 一 个 产生 式 推 时 “标识 符 列 表 1”， 则 其 中 
的 semantic012 将 会 被 调用 。 而 如 果 选 择 第 二 个 产生 式 推导 “标识 符 列表 1”， 由 于 
其 中 没有 包含 任何 语义 子 程序 ， 编 译 器 将 不 作 任何 调用 。 例 如 ， 编 译 器 在 分 析 USES 
filel,file2; 声 明 结构 时 ， 其 语义 子 程序 调用 顺序 必定 是 semantic093 一 semantic012 一 
semantic013 一 Semantic014 。 这 里 ， 笔 者 不 打算 详细 分 析 产 生 该 调用 顺序 的 过 程 
了 ， 这 是 一 个 非常 简单 的 语法 分 析 问 题 ， 读 者 可 以 自行 参考 自 上 而 下 的 语法 分 析 的 
特点 。 下 面 ， 就 来 看 看 semantic012 相关 源 代 码 及 其 与 semantic093、semantic094 的 关 
系 。 


116 


程序 4-4 semantic.cpp 
相关 文法 : 


标识 符 列 表 ”一 标识 符 012 标识 符 列表 1 
标识 符 列 表 1 一 ， 标识 符 012 标识 符 列表 1 


符号 表 系 统 


第 4 章 | 


1 bool semantic012() 
2 国 和 | 
9 
4 if (iIdListFlag.topO==7) /判断 是 否 正在 处 理 包 含 文件 声明 ， 即 判断 标志 栈 
5 { 
6 string Tmp=TokenList.at(iListPos-1).m_ szContent; 
又 if (SymbolTbl.SearchUseFileTbl(Tmp)==-1) 
8 
9 SymbolTbl.UseFileTbl.push back(UseFile(Tmp,false)); 
10 return true; 
11 } 
12 else 
13 { 
14 EmitError(Tmp.append(" 模 块 已 经 包含 "),TokenList.at(iListPos-1)); 
15 return false; 
16 } 
17 } 
18 return true; 
Wo } 


上 述 的 semantic012 并 不 完整 ， 这 里 仅 列 吕 


了 与 USES 声明 相关 的 源 代码 。 从 整个 程序 


的 结构 来 说 ， 读 者 不 难 发 现 它 是 以 itdListFlag 栈 顶 元 素 作为 分 支 条 件 。 因 此 ， 笔 者 有 必要 对 
idListFlag 栈 作 简 单 介绍 。 实 际 上 ， 这 与 非 终结 符 “ 标 识 符 列 表 ” 有 关 。 
Pascal 的 文法 ， 不 难 发 现 “标识 符 列 表 ” 这 个 非 终结 符 在 产生 式 右 部 多 次 出 现 。 例 如 : 


【文法 4-4】 


变量 定义 一 013 标识 符 列 表 040 : 类 型 


枚 举 类 型 一 (011 标识 符 列表 ) 014 


在 选用 上 述 候选 式 推导 时 ， 根 据 语法 


义 子 程序 。 显 然 ， 此 时 semantic012 的 语义 动作 与 其 


判 导 的 特点 ， 乡 


表 094;” 候 选 式 中 的 语义 动作 是 完全 不 同 的。 实际 上 ， 这 个 问题 的 矛盾 3 


的 复 用 ， 导 致 菜 些 语义 子 程序 可 能 同时 需要 处 理 


问题 并 不 复杂 ， 主 要 有 两 种 处 理 方式 : 


仔细 观察 Neo 


有 译 器 同样 会 去 调用 semantic012 语 
在 “包含 文件 说 明 一 uses 093 标识 符 列 


要 是 源 于 非 终结 符 
若干 个 不 同 的 语义 情景 。 当 然 ， 要 解决 这 个 


(1) 避免 非 终 结 符 的 复 用 。 虽 然 这 样 可 能 会 导致 文法 见 余 ， 却 是 一 个 有 效 且 可 行 的 办 
法 。 实 际 上 ， 在 一 个 完整 的 语言 文法 中 ， 非 终结 符 的 复 用 并 不 会 太 频 繁 。 因 上 出 


元 余 的 规模 是 可 以 接受 的 。 


(2) 设置 标志 辅助 分 析 。 实 际 上 ， 在 递归 下 降 语法 分 析 中 ， 编 译 器 可 


5， 导致 的 文法 


以 借助 于 传 参 
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方式 实现 标志 管理 ， 这 是 一 种 常见 且 高 效 的 方法 。 然 而 ， 本 书 采 用 的 LL(1) 是 一 种 非 递 归 


的 语法 分 析 方 法 ， 因 此 ， 标 志 的 管理 必须 借助 于 用 户 栈 结构 实 
文法 ， 只 需 在 复 用 非 终结 符 的 候选 式 中 加 入 维护 标志 栈 的 语义 


现 。 这 种 方式 不 需要 修改 
动作 即 可 。 而 被 复 用 的 非 


终结 符 的 语义 子 程序 则 根据 标志 栈 的 栈 顶 元 素 判 断 执 行 相应 的 语义 动作 。 而 iIdListFlag 


就 是 一 个 标志 栈 。 
下 面 简单 分 析 一 下 semantic012 用 于 处 理 包 含 文件 声明 的 语义 


动作 。 


第 7 行 : 为 了 保证 模块 文件 不 被 重复 引用 ， 在 处 理 包 含 文件 声明 时 ， 必 须 加 以 判断 。 


SearchUseFileTbl 是 一 个 简单 的 查找 函数 。 
第 9 行 : 保存 包含 文件 名 ， 以 备 后 用 。 严 格 地 说 ， 包 含 文件 


信息 表 〈UseFileTbl) 并 不 


是 一 张 符号 表 ， 只 是 一 个 辅助 数据 结构 。 它 的 结构 非常 简单 ， 声 明 如 下 : 


【声明 4-10】 

struct UseFile 

{ 
string m_SzFileName; /文件 名 
bool m_bFlag; /标志 
UseFile(string SzFileName,bool Flag); /构造 函数 

}; 

vector<UseFile> UseFileTb!l; // 包 含 文件 信息 表 


这 里 简单 解释 一 下 m_bFlag 标志 。 实 际 上 ， 编 译 器 在 处 理 包 含 


文件 的 循环 引用 或 重复 引用 的 情况 ， 这 可 能 会 导致 非常 严重 的 后 果 。 


个 简单 的 数据 结构 来 避免 类 似 情况 发 生 。 虽 然 编译 器 的 判断 可 能 


文件 时 ， 有 时 难以 避免 模块 
因此 ， 编 译 器 通常 会 设计 


上 


与 用 户 的 设计 初衷 相悖 ， 但 


也 是 无 可 奈何 的 。 在 文件 合并 时 ， 编 译 器 将 利用 m_bFlag 标志 避免 上 述 情况 发 生 。 


4.3.4 标号 声明 部 分 


分 析 标 号 声明 并 不 复杂 ， 编 译 器 的 主要 工作 就 是 将 标号 声明 部 分 中 的 标号 信息 逐一 加 入 


LabelInfoTbl 中 。 


程序 4-5 semantic.cpp 
相关 文法 : 
标号 声明 部 分 一 label 标识 符 003 标号 声明 列表 ; 


bool semantic003() 


1 

2 1{ 

3 LabelInfo Tmp; 

4 Tmp.m_ szName=TokenList.at(iListPos-1).m_ szContent; 
9 Tmp.m_ bDef=false; 

6 Tmp.m bUse=false; 

儿 Tmp.m_iProcIndex=SymbolTbl.ProcStack.top(); 

8 

9 


if (SymbolTbl.SearchLabelInfoTbl(Tmp.m iProcIndex,Tmp.m szN 
SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack 
10 .top()).m_ szName.compare(Tmp.m_ szName)!=0) 
11 ' 


ame)==-1 && 


12 SymbolTbl.LabelInfoTbl.push_back(Tmp); 
13 return true; 


15 else 


17 EmitError(Tmp.m_ szName.append(" 标 识 符 
18 return false; 


20 } 
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己 经 存在 "),TokenL ist.at(iListPos-1)); 


第 4~7 行 : 生成 一 个 LabelInfo 类 型 的 标号 信息 ， 并 按 实际 情况 填写 。 


第 8 一 10 行 : 用 于 判断 当前 标号 的 名 字 是 否 已 被 


包含 程序 的 单元 声明 、 标 号 声明 、 常 量 声明 、 类 型 


就 更 显而易见 了 。 在 分 析 标 号 信息 时 ， 编 译 器 根本 没 
搜索 其 他 符号 表 。 有 些 读 者 可 能 还 会 疑惑 ， 根 据 Neo 


| 


占用 。 这 里 ， 程 序 仅 对 LabelInfoTbl 表 


进行 了 搜索 。 读 者 可 能 疑惑 为 什么 不 需要 搜索 其 他 符号 表 呢 ? 笔 者 曾经 提 到 ， 说 明 部 分 依次 


声明 、 变 量 声明 、 函 数 或 过 程 声明 。 
Pascal 语言 允许 缺少 其 中 某 些 声明 ， 但 不 允许 改变 它们 的 次 序 。 从 Pascal 文法 角度 来 看 ， 这 


了 分析 到 其 他 任何 声明 ， 所 以 并 不 需要 


Pascal 文法 ，semantic003 不 但 需要 处 


理 主 程序 的 标号 信息 ， 同 时 还 需要 处 理子 程序 〈 即 过 程 或 函数 ) 的 标号 信息 。 那 么 ， 当 处 理 
子 程序 的 标号 信息 时 ， 是 否 需要 考虑 该 标号 名 字 与 主 程序 各 标识 符 之 间 的 如 


不 必 考 虑 ， 在 Pascal 语言 中 ， 子 程序 的 名 字 空 间 与 所 


名 问题 呢 ? 显然 
属 主 程序 的 名 字 空 间 是 相对 独立 的 。 当 


子 程序 与 主 程序 的 标识 符 重 名 时 ， 对 于 子 程序 而 言 ， 此 时 主 程序 中 声明 的 标识 符 将 是 不 可 见 


的 。 在 这 种 情况 下 ， 标 识 符 对 象 的 作用 域 与 可 见 域 就 不 完整 重 倒 了。 当然 ， 除 此 之 外 ， 标 号 


的 名 字 也 不 能 与 所 隶属 的 过 程 、 函 数 名 冲突 。 
4.3.5 常量 声明 部 分 


常量 声明 部 分 的 语义 处 理 主要 完成 常量 信息 表 的 


识别 得 到 字面 常量 值 ， 并 将 其 登记 入 常量 信息 表 。 不 过 ， 词 光 


登记 。 前 面 已 经 讲 过 ， 词 法 分 相 


器 可 以 


分 析 器 却 无 法 获得 常量 的 符号 


言 息 。 维 护 、 补 充 常量 信息 的 工作 就 必须 由 语义 处 理 来 完成 。 常 量 声明 的 相关 文法 如 下 : 


【文法 4-5】 
常量 声明 部 分 一 ”const 常量 定义 ; 常量 声明 列表 
常量 声明 列表 一 ”常量 定义 ; 常量 声明 列表 
~ & 


常量 定义 ”一 ”标识 符 = 常量 004 


其 中 只 包含 了 一 个 语义 子 程序 semantic004。 


程序 4-6 semantic.cpp 
相关 文法 : 
常量 定义 一 标识 符 = 常量 004 
] boolsemantic004() 
2 {1{ 
3 string szID=TokenList.at(iListPos-3).m szContent; 


站 
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4 if ( SymbolTbl.SearchLabelInfoTbl(SymbolTbl.ProcStack.top(),szID)==-1 && 
5 SymbolTbl.SearchConstInfoTbl(SymbolTbl.ProcStack.top(),szID)==-1 && 
6 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_szName.compare(szID)!=0) 
了 { 
8 ConstInfo *pTmp; 
9 pTmp=&SymbolTbl.ConstInfoTbl.at(atoi(TokenList 
10 .at(iListPos-1).m_ szContent.c_str())); 
11 pTmp->m szName=szID; 
ll pTmp->m iProcIndex=SymbolTbl.ProcStack.top(); 
13 return true; 
14 } 
15 else 
16 { 
17 EmitError(szID.append(" 标 识 符 已 经 存在 "),TokenList.at(iListPos-3)); 
18 return false; 
19 } 


20 } 


第 3 行 : 获取 常量 的 名 字 标 识 符 。 根 据 semantic004 在 候选 式 中 的 位 置 ， 必 须 向 前 搜索 
3 个 单词 ， 才 能 获取 常量 的 名 字 标 识 符 。 根 据 语法 制导 的 特点 ， 这 样 的 搜索 绝对 是 安全 的 ， 
所 以 不 必 作 任何 判断 。 

第 4~6 行 : 判断 标识 符 是 否 已 被 占用 。 这 里 的 判定 条 件 与 标号 声明 的 判定 条 件 有 一 定 
区 别 。 由 于 文法 定义 顺序 的 原因 ， 对 于 同一 级 别 的 过 程 而 言 ， 编 译 器 将 在 分 析 完 标号 声明 部 
分 之 后 ， 再 分 析 常 量 声明 部 分 。 因 此 ， 这 里 必须 增加 对 标号 信息 表 的 重 名 判断 。 

第 9 行 : 申请 一 个 临时 指针 指向 常量 信息 表 中 的 相应 表 项 。 在 讨论 词法 分 析 器 时 ， 笔 者 
介绍 过 词法 分 析 器 是 如 何 处 理 字 面 常量 的 。 首 先 ， 将 常量 值 记录 在 常量 信息 表 中 。 然 后 ， 利 
用 单词 的 m_szContent 属性 将 该 常量 值 在 常量 信息 表 中 的 位 序号 传递 给 后 续 阶 段 。 这 里 ， 就 
是 利用 单词 的 m_szContent 属性 获取 常量 信息 表 中 的 相应 表 项 ， 便 于 更 新 相关 属性 。 

第 11 行 : 更 新 该 常量 表 项 的 名 字 信 息 。 

第 12 行 : 更 新 该 常量 表 项 的 所 属 过 程 信息 。 不 仅 在 Pascal 语言 中 ， 大 多 数 程序 设计 语 
言 都 是 如 此 ， 常 量 与 变量 类 似 ， 也 存在 作用 域 、 可 见 域 等 。 


4.3.6 ”类 型 声明 部 分 


本 小 节 将 讨论 类 型 声明 部 分 的 语义 分 析 。 前 面 ， 笔 者 已 经 从 符号 表 结 构 的 角度 阐述 
了 类 型 描述 的 相关 问题 ， 读 者 可 能 已 经 感觉 有 些 复 条。 确实 如 此 ， 在 编译 器 设计 中 ， 只 
要 和 类 型 扯 上 关系 ， 通 常 许多 问题 可 能 就 变 得 比较 复杂 。 下 面 将 分 析 类 型 声明 部 分 语义 
分 及 其 实现 。 

实际 上 ， 本 小 节 的 讨论 目的 就 是 构造 一 组 语义 子 程序 ， 使 之 根据 输入 源 程 序 自动 完成 类 
型 信息 表 及 其 相关 符号 表 的 登记 、 维 护 工作 。 当 然 ， 这 个 过 程 是 稍 显 繁复 的 。 

【文法 4-6】 


类 型 声明 部 分 一 type 类 型 定义 ; 类 型 定义 列表 
类 型 定义 列表 一 类 型 定义 ; 类 
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E 
类 型 定义 ” ”一 ”标识 符 006= 类 型 


以 上 是 类 型 声明 部 分 的 文法 ， 其 中 “类 型 ” 非 终结 符 是 最 为 复杂 的 ， 稍 后 将 详细 分 类 讲 
述 。 这 里 ， 先 来 看 看 semantic006 的 功能 。semantic006 的 主要 功能 就 是 生成 类 型 信息 表 项 ， 
并 填写 类 型 名 字 等 属性 。 


程序 4-7 semantic.cpp 

相关 文法 : 

类 型 定义 。 一 ”标识 符 006= 类 型 

1 bool semantic006() 
2 1{ 
3 TypeInfo Tmp; 
4 Tmp.m szName=TokenList.at(iListPos-1).m_ szContent; 
3 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
6 if (SymbolTbl.SearchTypeInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName)==-1 && 
了 SymbolTbl.SearchConstInfoTbl(SymbolTbl.ProcStack.top(0,Tmp.m_szName) 一 -1 && 
8 SymbolTbl.SearchLabelInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName)==-1 && 
9 SymbolTbl.SearchEnumInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m_ szName)==-1 && 


10 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_szName.compare(Tmp.m szName)!=0) 
11 { 

12 SymbolTbl.TypeInfoTbl.push_ back(Tmp); 

13 iTypePos.push(SymbolTbl.TypeInfoTbl.size()-1); 

14 return true; 

15 } 

16 else 

17 { 

18 EmitError(Tmp.m_szName.append(" 标 识 符 已 经 存在 "),TokenList.at(iListPos-1)); 
19 return false; 

20 } 

we } 
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第 6 一 10 行 : 这 个 条 件 判 断 就 比较 复杂 了 ， 除 了 常量 信息 表 、 标 号 信息 表 、 类 型 信息 表 
外， 类 型 的 名 字 还 可 能 与 枚 举 常量 冲突 ， 因 此 ， 必 须 加 以 考虑 。 

第 13 行 : 将 指向 当前 类 型 表 项 的 指针 压 入 iTypePos 栈 。iTypePos 栈 的 元 素 类 型 就 是 普 
通 的 整 型 ， 而 该 元 素 指向 的 类 型 信息 表 项 就 是 当前 正在 分 析 的 类 型 信息 。 那 么 ， 为 什么 需要 
使 用 iTypePos 栈 呢 ? 下 面 ， 笔 者 就 对 这 个 问题 稍 作 解 释 。 
虽然 semantic006 填写 了 一 部 分 类 型 信息 表 项 的 属性 ， 并 将 其 加 入 了 类 型 信息 表 ， 但 
是 ， 这 些 信息 是 远 远 不 够 的 ， 需 要 后 续 语 义 分 析 子 程序 加 以 补充 。 读 者 可 能 会 疑惑 ， 为 什么 
不 采用 类 似 semantic004 的 方式 ， 向 前 搜索 多 个 单词 以 获取 类 型 名 字 呢 ? 实际 上 ， 这 里 所 男 
临 的 问题 是 不 同 的 ， 候 选 式 “ 常 量 定义 ~ 标识 符 = 常量 ”中 包含 的 “常量 ” 虽 是 非 终结 
符 ， 但 是 它 推导 得 到 的 单词 数量 是 固定 的 。 而 “类 型 定义 一 ”标识 符 006 = 类 型 ”中 非 终 
结 符 “ 类 型 ”所 能 推导 得 到 的 单词 数量 是 无 法 确定 的 。 因 此 ， 试 图 在 分 析 完 毕 后 回填 名 字 等 
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言 息 将 是 比较 复杂 的 。 


然而 ， 应 用 栈 结构 描述 的 意图 是 显而易见 的 。 当 然 ， 就 是 考虑 到 类 型 髓 套 声 明 的 原因 ， 
这 是 一 个 很 现实 的 问题 。 通 常 ， 处 理 这 种 肉 套 问题 的 最 好 办 法 就 是 递归 ， 但 是 ，LL(1) 分 析 
法 恰恰 将 递归 的 问题 转化 为 非 递归 的 形式 了 。 因 此 ， 原 本 可 以 借助 于 递归 传 参 的 属性 只 能 通 


过 用 户 栈 来 模拟 实现 了 。 


下 面 ， 将 着 上 


民 于 类 型 相关 的 语义 分 析 ， 这 是 一 个 充满 挑战 的 话题 。 与 其 他 程序 设计 语言 


相 比 ，Pascal 的 类 型 系统 还 不 算 特 别 复杂 ， 但 足以 阐述 类 型 描述 的 相关 问题 。 


1. 基本 类 型 
基本 类 型 的 语义 分 析 比 较 简 单 ， 基 本 不 需要 处 理 复杂 的 类 型 链 。 下 面 ， 先 来 


型 相关 的 候选 式 。 


义 子 程序 主要 用 于 处 理 一 些 复杂 类 型 的 分 析 。 


复杂 的 语义 。 这 上 


【文法 4-7】 
类 型 
基本 类 型 
有 序 类 型 


让 
让 
及 
斌 
准 


一 015 基本 类 型 010 

一 ”有 序 类 型 | 无 序 类 型 

一 ”char 007 |boolean 007 | 整数 类 型 | 枚 举 类 型 

> real 007 |single 007 

> integer 007 | byte 007 | shortint 007 | smallint 007 | word 007 | longword 007 | 
cardinal 007 

一 (011 标识 符 列表 ) 014 


这 里 ，semantic015、semantic010 与 基本 类 型 的 语义 分 析 无 关 ， 先 不 作 考 虑 。 这 两 个 语 


而 semantic007 涉及 的 语 境 比较 复杂 ， 它 不 但 需要 处 理 基本 类 型 声明 ， 还 需要 处 理 许多 


电 ， 笔 者 只 剖析 其 中 的 部 分 代码 ， 更 多 的 复杂 处 理 ， 待 后 续 章节 详 述 。 


程序 4-8 semantic.cpp 


一” 一 
AD Oo = wm 十 


一 ”一 
LU hiMP 
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相关 文法 : 


有 序 类 型 一 ”char 007 | boolean 007| 整数 类 型 | 枚 举 类 型 


无 序 类 型 ~ real 007 | single 007 


整数 类 型 一 integer 007 | byte 007 | shortint 007 | smallint 007 | word 007 | longword 007 | cardinal 007 


bool semantic007() 
{ 
if (liTypePos.empty() && iTypePos.top()!=-1 KK 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _eDataType==StoreType::T_NONE) 
{ 
StoreType TmpStoreType=CType::TokenToEnum(TokenList.at(iListPos-1).m iKind); 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _eDataType=TmpStoreType; 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ eBaseType=TmpStoreType; 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m iState=1; 
} 
return true; 
} 


第 4 行 : 判断 订 ypePos 栈 是 否 为 空 。 


第 7 行 : TokenToEnum 
实际 的 类 型 枚 举 值 ， 即 StoreType 的 值 。 详细 


是 类 型 系统 的 一 个 


态 成 员 函 数 ， 它 的 功能 是 根据 单词 值 返回 
日 源 代码 稍 后 给 出 。 
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第 8 一 10 行 : 基本 类 型 的 信息 非常 简单 ， 只 需 填 写 m_eDataType 及 m_eBaseType 两 个 


Sas 
TH 
du 


性 即 可 。 注 意 ， 完 成 后 必须 ) 
毕 ， 可 以 对 其 引用 了 。 这 个 标志 非常 重要 ， 它 可 以 控 
用 ， 而 哪些 则 不 可 以 。 这 里 的 引用 ， 不 仅 包括 变量 对 其 引用 ， 还 包括 


程序 4-9 Type.cpp 


下 面 ， 再 来 看 看 TokenToEnum 函数 的 源 代码 。 


1 StoreType CType::TokenToEnum(int iToken) 

2 1{ 

3 StoreType tmp; 

4 switch (iToken) 

5 { 

6 case 49:tmp=StoreType::T_ CHAR; break; 

了 case 44:tmp=StoreType:: 工 BOOLEAN; break; 

8 case 64:tmp=StoreType::T_INTEGER.; break; 

9 case 45:tmp=StoreType::T_ BYTE,; break; 
10 case 79:tmp=StoreType::T_SHORTINT,; break; 
11 case 82:tmp=StoreType::T _ SMALLINT; break; 
12 case 92:tmp=StoreType::T_ WORD; break; 
13 case 66:tmp=StoreType::T LONGWORD; break; 
14 case 47:tmp=StoreType::T CARDINAL.; break; 
15 case 74:tmp=StoreType::T_REAL.; break; 
16 case 81:tmp=StoreType::T_SINGLE; break; 
17 case 83:tmp=StoreType:: 工 STRING; break; 
18 } 
19 return tmp; 
EU } 


前 面 ， 笔 者 已 经 详 


:特别 复杂 。 


并 


枚 举 类 型 一 


各 m_iState 状态 标志 置 为 1， 表 示 这 个 类 型 表 项 已 经 分 析 完 
出 类 型 信息 表 中 哪些 类 型 表 项 可 以 被 引 
其 类 型 内 部 对 其 引用 。 


分 析 了 整 型 、 实 型 、 字 符 型 、 布 尔 型 的 相关 语义 子 程序 ， 它 们 并 不 


下 面 ， 讨 论 另 一 种 基本 类 型 一 一 枚 举 类 型 。 与 枚 举 类 型 有 关 的 候选 式 如 下 : 
【文法 4-8】 


(011 标识 符 列表 ) 014 


较 之 先前 讨论 的 基本 类 型 ， 枚 举 类 型 可 能 稍 复杂 。 枚 举 类 型 的 语义 处 理 不 但 涉及 类 型 信 


息 表 ， 还 需要 


填写 
义 处 


15, \ 只 


可 能 更 接近 于 复杂 类 型 。 


而 言 ， 它 的 语 
是 由 一 对 终结 


semantic012 。 


semantic014 三 个 语义 子 程序 


曾经 在 4.3.3 节 中 简单 介绍 过 
因此 ， 


< 同 完成 的 。 下 面 


举 信息 表 。 虽 然 枚 举 类 型 是 
仔细 分 

符 括号 、 两 个 语义 子 程序 和 一 个 非 终结 符 “ 标 识 符 列表 ”组 成 。 关 于 非 终结 符 
“标识 符 列表 ”， 


种 基本 类 型 ， 但 是 ， 从 编译 器 设计 的 角度 
析 该 候选 式 ， 不 难 发 现 ， 候 选 式 中 主要 


上 


， 它 的 相关 产生 式 包含 了 一 个 语义 子 程序 


枚 举 类 型 的 语义 处 理 主 要 就 是 由 semantic011 、semantic012 、 


， 就 来 看 看 相关 源码 的 实现 。 
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Se 


程序 4-10 semantic.cpp 
相关 文法 : 
枚 举 类 型 一 (011 标识 符 列表 ) 014 


1 boolsemantic011() 
2 1{ 
3 iEnumSize= SymbolTbl.TypeInfoTbl.size(); 
4 if (iTypeFlag.top()==2) 
5 { 
6 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _ iLink=iEnumSize; 
7 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m iState=1; 
8 TypeInfo Tmp; 
9 Tmp.m iState=1; 
10 Tmp.m szName=" noname"; 
11 Tmp.m szName.append(GetSerialld()); 
lz Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
13 Tmp.m eDataType=StoreType::T ENUM; 
14 Tmp.m iLink=SymbolTbl.EnumInfoTbl.size(); 
lS ildListFlag.push(1); 
16 SymbolTbl.TypeInfoTbl.push_ back(Tmp); 
17 return true; 
18 } 
19 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _eDataType=StoreType::T_ENUM.; 
20 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _ iLink=iEnumSize; 
21 ildListFlag.push(1); 
2 return true; 
230 } 


第 3 行 : EnumSize 是 一 个 全 局 变量 ， 用 于 记录 枚 举 信息 表 的 表 长 。 由 于 枚 举 信息 表 是 
一 张 全 局 符号 表 ， 各 种 枚 举 类 型 的 枚 举 常 量 信息 统一 顺序 存储 在 枚 举 信 息 表 内 ， 因 此 ， 在 分 
析 枚 举 常量 列表 之 前 ， 保 存 表 长 的 值 也 就 是 记录 当前 类 型 的 枚 举 常 量 列表 在 枚 举 信 息 表 中 的 
起 始 位 置 。 其 中 ， 两 个 要 点 有 必要 说 明 : 

(1) 枚 举 类 型 声明 内 部 是 不 允许 租 套 其 他 类 型 声明 的 ， 故 并 不 需要 考虑 应 用 栈 结 构 来 保 
存 起 始 位 置 。 

(2) 保存 起 始 位 置 的 目的 在 于 便于 计算 该 枚 举 类 型 的 枚 举 常量 个 数 。 由 于 Pascal 规定 枚 
举 类 型 的 常量 不 允许 超过 256 个 ， 因 此 ， 语 义 子 程序 应 该 加 以 判断 。 

第 6 一 17 行 : 处 理 枚 举 类 型 作为 集合 类 型 的 基 类 型 。 集 合 类 型 的 类 型 链 构 造 比 较 特 殊 ， 
是 由 基 类 型 语义 子 程序 处 理 ， 而 不 是 集合 类 型 本 身 的 语义 子 程序 处 理 的 。 根 据 Pascal 的 特 
点 ， 集 合 类 型 的 基 类 型 只 能 是 少数 的 有 序 类 型 及 枚 举 类 型 ， 因 此 ， 为 了 便于 设计 ， 笔 者 没有 
使 用 订 ypePos 栈 加 以 处 型 

第 20 行 : 指向 枚 举 信 息 表 尾 ， 因 为 这 个 位 置 就 是 当前 枚 举 类 型 的 枚 举 常量 列表 的 开始 。 

第 21 行 : 前 面 已 经 提 到 枚 举 类 型 语义 处 理 将 涉及 “标识 符 列 表 ” 相 关 语 义 子 程序 。 然 
而 ， 在 整个 文法 体系 中 ， 由 于 非 终 结 符 “ 标 识 符 列表 ”存在 多 处 复 用 ， 因 此 ，semantic012 


号 


HH 


o 


卫 
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语义 子 程序 只 能 依赖 idListFlag 标志 栈 ， 才 能 保证 语义 动作 的 正确 执行 。 


程序 4-11 semantic.cpp 


相关 文法 : 


标识 符 列 表 ”一 标识 符 012 标识 符 列 表 1 
标识 符 列表 1 一 ,标识 符 012 标识 符 列表 1 
bool semantic012() 


{ 


if (idListFlag.top()==1) 


{ 


EnumInfo Tmp; 

Tmp.m szName=TokenList.at(iListPos-1).m_ szContent; 

Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 

if (SymbolTbl.SearchTypeInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName,false)==-1 && 

SymbolTbl.SearchConstInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName)—-1 && 

SymbolTbl.SearchLabelInfoTbl(SymbolTbl.ProcStack.top|,Tmp.m szName)—-1 && 
SymbolTbl.SearchEnumInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName)==-1 && 

SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_szName.compare(Tmp.m_ szName)!=0) 


{ 
if ((SymbolTbl.EnumInfoTbl.size()-iEnumSize)<=256) 
{ 
SymbolTbl.EnumInfoTbl.push_ back(Tmp); 
return true; 
} 
else 
{ 
EmitError(" 枚 举 类 型 的 标号 个 数 不 得 大 于 256",TokenList.at(iListPos-1)); 
return false; 
} 
} 
else 
{ 
EmitError(" 标 识 符 名 已 经 存在 ， 或 该 标识 符 已 定义 ",TokenList.at(iListPos-1)); 
return false; 
} 


semantic012 得 以 正确 处 理 各 类 语义 的 保证 。 


第 6、7 行 : 填写 枚 举 信息 表 表 项 。 在 处 至 


AN 


常量 
第 


名 字 空间 的 约定 ， 不 同 的 语言 可 能 存在 一 定 的 差异 。 


和 14 行 : 判断 当前 类 型 的 枚 举 常 量 的 个 数 是 否 已 超过 256。 枚 举 类 型 的 枚 举 常量 个 


第 3 行 : 判断 iListFlag 标志 栈 。 当 非 终 结 符 “标识 符 列表 ”被 复 用 时 ， 标 志 栈 是 


枚 举 常量 列表 时 ， 需 注意 具体 源 语 言 关于 枚 
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@ 
加 


数 不 超 过 256 是 标准 Pascal 的 规范 


编译 器 设计 之 路 


守 这 一 规范 。 正 因 如 此 ， 枚 举 类 型 变量 的 物理 存储 空间 通常 就 是 1B。 


程序 4-12 semantic.cpp 
相关 文法 : 
枚 举 类 型 一 (011 标识 符 列表 ) 014 


1 bool semantic014() 

2 {1 

3 EnumInfo Tmp; 

4 int i=iEnumSize; 

S int j=0; 

6 while (i<SymbolTbl.EnumInfoTbl.size()) 

{ 

8 ConstInfo TmpConst; 

9 TmpConst.m szName=SymbolTbl.EnumInfoTbl.at(i).m_ szName; 
10 TmpConst.m iProcIndex=SymbolTbl.ProcStack.top(); 
11 TmpConst.m iVal=]j++; 

ll TmpConst.m iEnumIdx=SymbolTbl.TypeInfoTbl.size()-1; 
13 TmpConst.m ConstType=ConstType::ENUM; 
14 TmpConst.m StoreType=StoreType::T_ ENUM; 
15 SymbolTbl.ConstInfoTbl.push back(TmpConst); 
16 1++; 

17 } 

18 Tmp.m szName="-—1",; 

19 SymbolTbl.EnumInfoTbl.push_ back(Tmp); 

20 ildListFlag.pop(); 

21 return true; 

2 } 

23 


第 6 一 17 行 : 遍历 类 型 的 相关 枚 举 常 量 的 表 项 ， 


绝 大 多 数 Pascal 编译 器 (包括 实验 室 级 、 商 用 级 


) 都 遵 


并 生成 相应 的 常量 信息 。 以 枚 举 常量 名 
作为 常量 信息 表 项 的 名 字 ， 以 一 个 由 编译 器 顺序 分 配 的 整 型 值 作为 常量 的 值 ， 并 加 入 常量 信 
息 表 。 这 样 做 的 优点 是 显而易见 的 ， 便 于 后 续 语义 子 程序 的 处 理 。 因 为 后 续 语义 子 程序 不 必 


全 
束 


(1) 常量 信息 表 的 m_iEnumIdx 属性 用 于 指向 该 枚 举 常量 所 属 类 型 的 描述 信息 。 


(2) 在 Pascal 语言 中 ， 枚 举 常 量 的 存储 值 是 由 


TS 


译 器 分 配 的 ， 不 允许 用 户 指定 。 


再 关注 枚 举 常量 与 普通 常量 之 间 的 区 别 ， 只 需 检索 常量 信息 表 即 可 获得 枚 举 常量 的 相关 信 
息 ， 包 括 实际 的 取 值 、 枚 举 类 型 信息 等 。 这 里 需 说 明 两 点 : 


第 18、19 行 : 设置 结束 标志 ， 并 将 其 加 入 枚 举 信息 表 。 由 于 枚 举 信息 表 是 顺序 存储 且 


局 共享 的 ， 所 以 编译 器 有 必要 记录 各 个 枚 举 类 型 的 枚 举 值 列表 在 枚 举 信 息 表 中 的 起 始 和 结 


立 置 。 类 型 信息 表 的 m_iLink 属性 已 经 记录 了 该 类 型 在 枚 举 信息 表 中 的 起 始 位 置 ， 但 是 纺 


译 器 却 始终 无 法 得 到 结束 位 置 。 当 然 ， 在 类 型 信息 表 中 增加 一 个 属性 用 于 记录 结束 位 置 是 完 


置 结束 标志 ， 这 样 ; 
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全 可 行 的 。 不 过 ， 笔 者 并 不 主张 这 种 修改 方案 。 比 较 理想 的 处 理 方式 就 是 在 枚 
\ 需 要 修改 符号 表 的 结构 。 在 Neo Pascal 中 ， 将 “-1” 作 为 结束 标志 加 


举 信息 


ID 


表 中 设 
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入 枚 举 信息 表 内 。 这 样 ， 编 译 器 可 以 方便 地 获得 茶 一 类 型 的 枚 举 值 列 表 ， 只 需 从 类 型 的 


m_iLink 属性 开始 顺序 向 下 读 取 ， 


直到 “-1” 结 束 标 志 终 止 即 可 。 


至 此 ， 笔 者 已 经 分 析 了 基本 类 型 声明 的 相关 语义 处 理 。 下 面 ， 将 继续 讲解 数组 类 型 声明 


及 其 语义 处 理 。 
2. 数组 类 型 
前 面 ， 读 者 应 该 已 经 了 解 了 


Pascal 数组 类 型 的 一 些 基 本 特点 ， 以 及 与 C 或 Java 的 不 同 


之 处 。 下 面 看 看 数组 类 型 的 相关 候选 式 。 


【文法 4-9】 
类 型 一 
构造 类 型 一 
数组 类 型 3 
数组 界限 列表 一 
数组 界限 一 


015 构造 类 型 010 

数组 类 型 

array 016[ 数组 界限 数组 界限 列表 ] of 类 型 025 
， 数 组 界限 数组 界限 列表 |& 

整数 常量 017 .. 整数 常量 018 


与 基本 类 型 语义 处 理 不 同 ， 数 组 类 型 是 允许 类 型 嵌 套 声明 的 。 从 文法 角度 而 言 ， 不 难 发 


现 ， 非 终结 符 “ 类 型 ”存在 右 递归 现象 。 此 时 ， 编 译 器 是 无 法 预知 递归 实际 深度 的 。 下 面 看 


一 个 实例 分 析 。 
例 4-3 匿名 类 型 声明 。 


【声明 4-11】 
TYPE 


a=ARRAY [1..20] OF INTEGER:; 
b=ARRAY [1..10] OF a; 


声明 4-11 并 不 复杂 ， 先 不 考虑 语义 子 程序 的 实现 。 填 写 符号 表 、 构 造 类 型 链 应 该 并 不 


困难 。 整 个 过 程 可 以 描述 为 三 步 : 
属性 指向 a 的 类 型 表 项 。 参 见 图 4 


类 型 信息 表 


a 类 型 信息 


填写 a 的 类 型 信息 ; 填写 b 的 类 型 信息 ; 将 b 的 m_iLink 
-9 。 


类 型 信息 表 类 型 信息 表 


a 类 型 信息 a 类 型 信息 


第 1 步 


b 类 型 信息 b 类 型 信息 
第 2 步 第 3 步 


图 4-5 声明 4-10 的 语义 分 析 过 程 示意 


以 上 过 程 虽然 涉及 类 型 链 的 构造 ， 但 是 整个 过 程 并 不 复杂 。 由 于 b 类 型 的 


基 类 型 a 是 一 


个 实名 类 型 ， 编 译 器 只 需 检 索 类 型 信息 表 并 钩 链 成 类 型 链 即 可 。 右 递归 的 处 理 似乎 消失 于 无 
形 之 中 了 ， 然 而 问题 并 非 如 此 简单 。 请 读者 分 析 如 下 声明 ; 


【声明 4-12】 
TYPE 
b=ARRAY 

声明 4-12 的 语义 与 声明 4-11 

能 会 给 语义 分 析 带 来 不 少 困 难 。 通 


[1..10] OF ARRAY [1..20] OF INTEGER:; 


完全 相同 ， 只 是 声明 形式 略 有 不 同 。 不 过 ， 这 样 的 变化 可 
常 ， 可 以 将 整个 分 析 处 理 过 程 描述 为 三 步 : 先 填写 a 的 类 


B ER i 
罗 、 编译 器 设计 之 路 
ee 


型 信息 ;再 生成 一 个 匿名 类 型 表 项 ， 填 写 相 应 的 属性 ， 并 将 其 加 入 符号 表 ; 


m iLink 属性 指向 a 的 类 型 表 
类 型 信息 表 


| 
o 
Bd 


请 参见 图 4-6。 


类 型 信息 表 类 型 信息 表 


b 类 型 信息 


b 类 型 信息 b 类 型 信息 
匿名 类 型 信息 匿名 类 型 信息 
第 1 步 第 2 步 第 3 步 


图 4-6 声明 4-2 的 语义 分 析 过 程 示意 


最 后 将 b 的 


以 上 过 程 ， 乍 一 看 与 先前 的 三 个 步骤 比较 类 似 ， 但 是 ， 其 差别 在 于 编译 器 主 属 类 型 在 符 
号 表 中 的 位 置 是 不 同 的 。 在 类 型 复合 声明 中 ， 两 个 类 型 结 点 之 间 通 常 是 存在 主 从 关系 的 。 例 
如 ， 在 声明 4-11 中 ，b 类 型 就 是 主 属 类 型 ， 而 在 b 类 型 的 复合 声明 中 ，a 就 是 从 属 类 型 。 值 
得 注意 的 是 ， 主 从 关系 是 针对 某 一 特定 的 复合 声明 而 言 的 ， 并 不 是 基于 整个 源 程序 讨论 的 。 


类 型 声明 的 语义 处 理 时 ， 这 种 情况 尤为 突出 。 根 据 先 前 的 符号 表 结 构 ， 乡 


通常 ， 在 处 理 某 一 类 型 声明 时 ， 编 译 器 可 能 需要 反复 徘徊 于 主 从 类 型 之 间 进 行 分 析 。 在 记录 
i 译 器 可 以 方便 地 从 
主 属 类 型 信息 获取 其 从 属 类 型 的 信息 。 不 过 ， 从 某 一 个 实际 类 型 信息 表 项 获取 其 主 属 类 型 的 


详细 信息 可 能 就 不 大 容易 了 。 形 如 声明 4-11， 编 译 器 很 容易 地 确定 主 属 类 型 ， 因 为 主 属 类 型 


通常 就 是 类 型 信息 表 的 最 末 表 项 。 而 形 如 声明 4-12， 编 译 器 就 无 法 简单 地 确定 主 属 类 型 ， 因 


为 编译 器 永远 也 无 法 预知 主 属 类 型 表 项 后 将 存在 多 少 从 属 类 型 的 表 项 。 当 然 ， 在 语法 上 作 严 
格 限制 ， 确 实 可 以 避免 匿名 类 型 的 产生 ， 同 时 也 大 大 降低 了 编译 器 设计 的 复杂 度 。 不 过 ， 这 


种 处 理 方案 并 不 是 一 个 好 主意 。 实 际 上 ， 在 很 多 情况 下 ， 人 们 更 倾向 于 使 


制 ， 包 括 匿名 类 型 、 匿 名 参数 、 匿 名 函数 等 ， 它 们 可 以 大 大 方便 使 用 。 


那么 ， 可 行 的 解决 方法 就 是 利用 栈 结构 保存 当前 正在 分 析 类 型 的 指针 “在 Neo Pascal 中 


语言 的 匿名 机 


也 就 是 类 型 信息 表 项 的 位 序号 ) ， 可 以 将 这 个 栈 简称 为 “当前 类 型 指针 栈 ”。 在 Neo Pascal 


中 ， 当 前 类 型 指针 栈 声 明 如 下 : 


【声明 4-13】 


stack<int> iTypePos; 


栈 顶 元 素 即 为 当前 类 型 的 指针 ， 而 次 元 素 即 为 当前 类 型 的 主 属 类 型 的 指针 ， 依 此 类 推 。 


这 种 解决 方案 的 提出 并 不 仅仅 是 为 解决 数组 声明 的 问题 ， 而 是 则 在 应 对 一 切 复 杂 的 类 型 复合 


声明 。 虽 然 语法 分 析 器 是 非 递归 实现 的 ， 但 是 ， 推 导 文 法 的 过 程 仍然 是 一 个 递归 的 过 程 。 在 


递 推 过 程 中 ， 语 义 分 析 器 将 类 型 的 指针 逐一 压 栈 ， 而 在 回归 过 程 中 ， 则 将 类 型 的 指针 逐一 恢 


复出 栈 。 当 正确 完成 一 次 推导 后 ，iTypePos 栈 应 当 仍然 为 空 。 
例 4-4 复合 类 型 声明 的 处 理 。 


【声明 4-14】 
TYPE 
a=ARRAY [1..10] OF RECORD 
a: ARRAY [1..10] OF INTEGER; 
b: INTEGER; 
END; 
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本 例 是 一 个 复合 类 型 声明 的 实例 。 这 里 ， 笔 者 先 不 讨论 详细 的 语义 动作 实现 。 只 讨论 编译 
器 如 何 确定 主 属 类 型 的 问题 ， 这 是 一 个 重要 的 话题 ， 也 是 理解 后 续 语义 处 理 源 代码 的 基础 。 
先前 ， 读 者 应 该 已 经 基本 理解 了 设置 iTypePos 的 意图 。 下 面 ， 就 来 看 看 如 何 利用 栈 结 
构 保存 主 属 类 型 指针 。 请 读者 参见 以 下 声明 : 


【声明 4-15】 
TYPE 
a= 1 ARRAY [1..10] OF ! RECORD 
a ARRAY [1..10] OF 1!INTEGER+ +; 
b: + INTEGER + ; 
ENDT 1; 
声明 4-15 在 声明 4-14 的 基础 了 增加 了 一 些 箭头 。 注 意 ， 这 些 箭 头 只 是 为 了 便于 笔者 讲 
解 而 设置 的 一 种 标记 ， 与 指针 或 者 其 他 的 语法 机 制 无 关 。 假 设 “ } ”表示 将 当前 类 型 信息 表 
已 


项 的 指针 入 栈 ， 而 “+ ”表示 将 栈 顶 指针 弹出 。 仅 此 两 个 语义 动作 ， 编 译 器 就 可 以 跟踪 推 号 
过 程 中 的 类 型 变化 情况 。 详 细 的 处 理 过 程 并 不 复杂 ， 不 再 袭 述 。 

当然 ， 仅 在 源 程序 中 加 入 入 栈 、 出 栈 的 动作 ， 显 然 是 不 够 的 。 下 面 来 看 如 何在 文法 的 适 
当 位 置 安插 语义 子 程序 ， 使 之 在 语法 制导 分 析 的 过 程 中 实现 对 栈 的 维护 。 当 然 ， 能 使 编译 器 
正确 完成 语义 分 析 工 作 是 必须 保证 的 提前 。 

要 弄 清 楚 源 程 序 与 文法 之 间 的 联系 ， 归 约 的 方法 可 能 是 最 有 效 的 ， 它 比较 适用 于 分 析 此 类 情 
况 。 本 书 并 不 打算 详解 归 约 的 相关 理论 与 技术 。 这 里 ， 仅 以 示意 图 形式 描述 其 过 程 ， 参 见 图 4-7。 


Ls 


a= | ARRAY [1..10] OF RECORD a: | ARRAY [1..10] OF | INTEGER +t 1; b: INTEGER 人 ;END 人 个， 
1 3 


1 


图 4-7 类 型 声明 及 相关 语义 动作 


在 图 4-7 中 ， 笔 者 用 五 条 下 画 线 描述 了 整个 归 约 过 程 ， 最 终 ， 每 条 下 画 线 上 的 单词 都 将 
被 归 约 为 非 终结 符 “ 类 型 ”。 而 下 画 线 的 序号 则 表示 归 约 的 顺序 。 从 归 约 的 过 程 分 析 ， 可 以 
得 到 如 下 结论 : 通常 ， 在 一 组 完整 的 类 型 声明 中 ， 将 入 栈 动作 插入 声明 首部 ， 而 将 出 栈 动 作 
捅 入 尾部 。 换 名 话说， 语义 分 析 器 就 是 在 处 理 一 组 类 型 声明 之 初 ， 执 行 入 栈 动作 ; 在 结束 一 
组 类 型 声明 之 际 ， 执 行 出 栈 动作 。 实 际 上 ， 这 种 栈 操作 方式 与 计算 机 中 断 现场 保护 非常 类 
似 。 栈 结构 在 计算 机 软 、 硬 件 中 都 有 广泛 应 用 。 在 后 续 章 节 中 ， 还 将 涉及 计算 机 硬件 结构 中 
的 系统 栈 ， 它 对 程序 设计 语言 的 发 展 起 到 了 至 关 重 要 的 作用 。 

以 上 ， 笔 者 分 析 了 复合 类 型 语义 处 理 的 基本 思想 。 从 算法 本 身 而 言 ， 可 能 并 不 是 很 复 
杂 。 有 些 读者 可 能 会 认为 这 些 环 手 问题 的 产生 完全 是 由 于 自 上 而 下 的 语法 分 析 机 制造 成 的 。 
关于 这 个 问题 ， 读 者 的 看 法 并 非 全 无 道理 。 事 实 上 ， 如 果 采 用 自 下 而 上 的 语法 分 析 机 制 的 确 
可 以 回避 此 类 问题 。 不 过 ， 基 于 归 约 实现 的 编译 器 同样 会 遇 到 一 些 新 的 问题 ， 而 这 些 问题 可 
能 是 前 者 无 需 考虑 的 。 实 践 证 明 ， 从 设计 语义 分 析 器 的 角度 而 言 ， 两 种 语法 分 析 机 制 实现 的 
语义 分 析 器 都 不 是 绝对 完美 的 。 

下 面 ， 继 续 讨 论 数 组 声明 的 相关 语义 处 理 。 先 来 看 看 semantic016 与 semantic025 的 源 代 
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码 实 现 ， 


的 文法 远 比 基本 类 型 复杂 ， 非 终结 符 、 产 生 式 的 复 用 的 情况 也 较为 常见 。 因 此 ， 编 译 器 有 必 
要 进行 标识 ， 以 便 后 续 语 义 子 程序 处 理 。 
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它们 是 “数组 类 型 ”的 最 外 层 语义 子 程序 。 


程序 4-13 semantic.cpp 


人 上 miPP 一 


相关 文法 : 
数组 类 型 一 array 016[ 数组 界限 数组 界限 列表 ] of 类 型 025 


bool semantic016() 


{ 


SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _eDataType=StoreType::T ARRAY; 
iTypeFlag.push(3); 
return true; 


第 3 行 : 设置 类 型 信息 表 项 的 m_eDataType 属性 ， 而 iTypePos 栈 顶 元 素 即 为 当前 类 型 
指针 。 
第 4 行 : 类 型 标志 压 栈 ， 用 于 标识 当前 正在 分 析 的 类 型 是 数组 类 型 。 数 组 、 记 录 等 类 型 


程序 4-14 semantic.cpp 


相关 文法 : 


数组 类 型 一 array 016[ 数组 界限 数组 界限 列表 ] of 类 型 025 
bool semantic025() 


{ 


} 


iTypeFlag.popO); 
return true; 


第 3 行 : 弹出 类 型 标志 ， 与 semantic016 的 压 栈 动作 是 对 应 的 。 
下 面 ， 再 来 看 看 “数组 界限 ”及 其 语义 子 程序 (semantic017、semantic018) 的 实现 。 


程序 4-15 semantic.cpp 


oo ~ 了 WwW 上 上 wmDPP 一 


相关 文法 ; 
数组 界限 一 ”整数 党 


中 
2 
六 
二 
尖 
于 
吉 


018 


bool semantic017() 


{ 


} 


ArrayInfo Tmp; 

int i=atoi(TokenList.at(iListPos-1).m_ szContent.c_str()); 

Tmp.m iStart=atoi(SymbolTbl.ConstInfoTbl.at().m szVal.c_str()); 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ArrayInfo.push_ back(Tmp); 
return true; 


第 4 行 : 获取 整数 常量 的 表 项 指针 。 在 词法 分 析 阶 段 ， 编 译 器 已 经 将 整数 常量 加 入 了 常 
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量 信息 表 中 ， 并 借助 于 单词 的 m_szContent 属性 将 该 常量 信息 表 项 位 序号 传递 给 了 语法 分 析 
器 及 后 续 阶段 。 
第 5 行 : 从 常量 信息 表 中 ， 获 取 数 组 的 下 限 。 
第 7 行 : 将 数组 维度 信息 表 项 加 入 符号 表 ， 便 于 semantic018 填写 上 限 ( 即 m iEnd 属 
性 )。 注 意 ， 数 组 维度 信息 列表 是 一 张 局 部 符号 表 ， 结 构 也 非常 简单 。 


程序 4-16 semantic.cpp 
相关 文法 : 
数组 界限 一 ”整数 常量 017 .. 整数 常量 018 


1] “bool semantic0180) 

2 1{ 

3 int 1=atoi( TokenList.at(iListPos-1).m szContent.c_str()); 

4 int 1Tmp=atoi(SymbolTbl.ConstInfoTbl.at(i).m _ szVal.c_str()); 

ArrayInfo* tmp=&(SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ArrayInfo. 

6 at(SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ArrayInfo.size()-1)); 
W if (tmp->m iStart<=1Tmp) 

8 
9 


{ 
tmp->m iEnd=iTmp; 

10 return true; 
11 } 
12 else 
13 { 
14 EmitError(" 数 组 定义 上 限 小 于 下 限 ",TokenList.at(iListPos-1)); 
15 return false; 
16 } 
I } 


第 6 行 : 令 tmp 指针 指向 当前 正在 处 理 的 数组 维度 信息 表 项 。 定 位 数组 维度 信息 表 项 的 
工作 主要 分 为 两 步 : 

1) 借助 于 iTypePos 栈 查找 到 当前 类 型 信息 表 项 。 

2) 当前 类 型 信息 表 项 的 m_ArrayInfo 列表 中 的 最 末 表 项 即 为 当前 正在 处 理 的 数组 维度 
信息 表 项 。 

第 8 行 : 数组 界限 的 语义 判断 。 在 Neo Pascal 中 ， 数 组 声明 必须 满足 下 限 小 于 或 等 于 上 
限 的 规定 ， 否 则 报错 。 在 标准 Pascal 中 ， 数 组 上 、 下 限 是 允许 为 负数 的 ， 故 Neo Pascal 并 没 
有 严格 规定 上 、 下 限 整 数 的 取 值 范围 。 
讨论 至 此 ， 编 译 器 似乎 并 没有 对 数组 的 基 类 型 作 任何 语义 处 理 。 那 么 ， 数 组 的 类 型 链 到 
底 是 由 谁 构造 的 呢 ? 似乎 一 直 忽略 了 semantic015 及 semantic010 的 存在 。 在 分 析 基 本 类 型 声 
明 的 语义 处 理 时 ， 笔 者 有 意 略 过 了 这 两 个 语义 子 程序 。 其 原因 就 是 这 两 个 语义 子 程序 是 用 了 
处 理 类 型 链 的 ， 而 基本 类 型 声明 根本 不 涉及 类 型 链 问 题 ， 因 此 ， 没 有 必要 深入 阐述 。 然 而 ， 
处 理 数组 类 型 声明 的 过 程 中 ， 编 译 器 就 无 法 回避 类 型 链 构 造 的 问题 了 。 下 面 ， 就 来 看 看 语义 
子 程序 是 如 何 构造 类 型 链 的 。 
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程序 4-17 semantic.cpp 
相关 文法 : 
类 型 一 015 构造 类 型 010 


1 boolsemantic015() 
2 1{ 
3 if (iTypeFlag.top()==2 || iTypeFlag.top(O)==5 || i1TypeFlag.top()=—6 || iTypeFlag.top()==7) 
4 
S iTypePos.push(SymbolTbl.TypeInfoTbl.size()-1); 
6 return true; 
7 } 
8 if (iTypeFlag.top()==3 || iTypeFlag.top()==4) 
9 { 
10 TypeInfo Tmp; 
11 Tmp.m szName=" noname"; 
12 Tmp.m_ szName.append(GetSerialld()); 
13 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
14 Tmp.m iState=0; 
15 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _ iLink=SymbolTbl.TypeInfoTbl.size(); 
16 SymbolTbl.TypeInfoTbl.push_ back(Tmp); 
17 iTypePos.push(SymbolTbl.TypeInfoTbl.size()-1); 
18 return true; 
19 } 
20 
21 return true; 
2 } 
第 3~7 行 : 根据 当前 类 型 标志 判断 是 否 为 集合 类 型 、 过 程 类 型 、 函 数 类 型 、 函 数 返 回 
类 型 ， 如 果 满足 条 件 则 将 当前 类 型 信息 表 项 的 位 序号 压 栈 。 这 里 ， 读 者 先 不 必 深 究 ， 稍 后 将 


给 出 详细 分 析 。 
第 8 行 : 判断 当前 类 型 标志 是 否 为 数组 类 型 或 文件 类 型 。 从 文法 上 而 言 ， 在 类 型 声明 部 
分 ， 此 语义 子 程序 被 多 次 复 用 。 因 此 ， 设 置 iTypeFlag 的 目的 就 是 用 于 区 别 不 同类 型 声明 的 
语 境 。 实 际 上 ，semantic015 的 主要 功能 就 是 构造 类 型 链 。 读 者 应 该 知道 ， 不 同 复 合 类 型 的 
类 型 链 结构 是 不 尽 相 同 的 ， 例 如 ， 基 本 类 型 并 不 存在 类 型 链 。 而 记录 类 型 的 类 型 链 则 是 一 对 
多 的 关系 ， 当 然 ， 设 置 记录 类 型 字段 列表 的 目的 也 仅仅 是 为 了 更 好 地 解决 其 一 对 多 的 存储 结 
构 问 题 。 然 而 ， 数 组 类 型 的 类 型 链 则 是 一 对 一 的 关系 ， 即 数组 类 型 的 基 类 型 是 唯一 的 ， 不 可 
能 同时 存在 多 个 基 类 型 。 而 这 一 特点 与 文件 类 型 比较 类 似 。 

第 11、12 行 : 设置 类 型 名 字 。 从 应 用 的 角度 而 言 ，semantic015 所 处 理 的 数组 基 类 型 必 
定 是 匿名 类 型 。 不 过 ， 为 了 便于 后 续 处 理 ， 编 译 器 依然 会 为 其 分 配 一 个 默认 且 唯 一 的 名 字 。 
当然 ， 编 译 器 还 必须 保证 这 个 名 字 不 与 任何 合法 的 用 户 语法 元 素 〈( 包 括 类 型 、 变 量 、 常 量 等 
等 ) 的 命名 冲突 ， 即 不 可 占用 任何 用 户 的 名 字 空 间 。 这 个 条 件 看 似 比 较 敬 刻 ， 却 并 不 难 实 
现 。 通 常 ， 用 户 定义 的 语法 元 素 的 名 字 必 须 是 合法 的 标识 符 。 那 么 ， 编 译 器 自动 分 配 的 名 字 
只 需 破坏 这 一 原则 ， 自 然 就 不 可 能 产生 任何 冲突 了 。 在 Neo Pascal 中 ， 自 动 分 配 的 名 字 以 


二 
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“noname” 开 头 ， 后 接 一 个 顺序 编号 即 可 。 由 于 合法 的 Pascal 标识 符 是 不 允许 以 ″h ”开头 
的 ， 所 以 不 可 能 存在 冲突 。 而 顺序 编号 是 由 编译 器 自动 产生 的 ， 以 保证 不 存在 重 名 现象 。 
第 14 行 : 设置 m iState 为 0， 表 示 当 前 类 型 未 分 析 完 成 。 这 个 属性 保证 了 未 完成 分 析 
的 类 型 是 不 能 被 引用 的 ， 即 使 其 类 型 信息 表 项 已 经 被 加 入 了 符号 表 。 
第 17 行 : 将 当前 类 型 信息 表 项 的 指针 压 栈 ， 以 便 后 续 语 义 子 程序 继续 完善 该 类 型 
表 项 。 最 终 ， 实 现 类 型 链 的 构造 。 


息 
J 


ll 


程序 4-18 semantic.cpp 
相关 文法 : 
类 型 一 015 构造 类 型 010 


1] boolsemantic010() 

2 

3 if (liTypePos.empty() && iTypePos.top()!=-1) 

4 { 

5 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m iState=1; 

6 iTypePos.popO); //iTypePos 栈 顶 元 素 出 栈 
7 } 

8 return true; 

2 } 


第 3 行 : 为 了 使 程序 逻辑 比较 严谨 ， 这 里 有 必要 作 相 应 判断 。 

第 6 行 : 修改 类 型 信息 表 项 的 m iState 属性 ， 即 表示 该 类 型 信息 可 以 被 引用 了 。 当 然 ， 
匿名 类 型 是 不 可 能 被 后 续 声 明显 式 引 用 的 。 

semantic015 和 semantic010 是 两 个 非常 重要 的 语义 子 程序 ， 在 后 续 章 节 中 ， 还 将 继续 详 
细 分 析 semantic015 的 剩余 部 分 源 代 码 。 关 于 数组 声明 的 处 理 ， 和 暂且 讨论 至 此 。 实 际 上 ， 现 
在 读者 再 来 回顾 复合 类 型 声明 的 语义 处 理 可 能 已 经 并 不 是 那么 复杂 了 。 在 此 ， 笔 者 并 不 想 过 
多 纠缠 于 源 代码 实现 ， 更 愿意 将 解决 问题 的 思路 与 读者 分 享 ， 以 便 读者 举一反三 ， 构 造 自 己 
的 编译 占 。 

3， 记录 类 型 

Pascal 的 记录 类 型 或 者 C 语言 的 结构 类 型 都 是 比较 特殊 的 类 型 ， 它 们 是 面向 对 象 语 言 产 
生 与 发 展 的 重要 基础 。 早 期 的 面向 对 象 语言 的 设计 初衷 就 是 在 记录 或 结构 的 基础 上 ， 引 入 函 
数 成 员 ， 即 所 谓 的 操作 或 方法 ， 以 便 将 数据 与 基于 数据 的 函数 视 作 一 个 整体 ， 称 为 “类 ”。 
虽然 类 的 思想 并 不 足以 宫 括 面向 对 象 设 计 的 全 部 ， 也 未 必 称 得 上 是 面向 对 象 思想 的 精髓 ， 但 
它 是 面向 对 象 时 代 的 先行 者 。 下 面 ， 就 来 看 看 记录 类 型 的 相关 文法 的 候选 式 。 


【文法 4-10】 


类 型 一 ”015 构造 类 型 010 

构造 类 型 一 “记录 类 型 

记录 类 型 一 ， record 019 字段 列表 end 020 

字段 列表 一 ”字段 固定 部 分 字段 列表 | 字段 可 变 部 分 字段 列表 | & 


字段 固定 部 分 一 ”标识 符 列表 : 类 型 ; 
字段 可 变 部 分 一 ”case 标识 符 029 :类 型 of 033 字段 可 变 部 分 1 034 end 030 ; 
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字段 可 变 部 分 1 一 常量 031:( 字段 列表 ) 032 ; 字段 可 变 部 分 1 |E 


记录 类 型 的 文法 相对 比较 复杂 。 不 过 ， 其 构造 类 型 链 的 核心 思想 与 数组 声明 的 处 理 是 非 
常 相似 的 。 笔 者 先 从 semantic019 和 semantic020 这 一 对 语义 子 程序 着 手 开 始 分 析 记 录 类 型 声 
明 的 相关 源 代 码 实现 。 事 实 上 ， 这 两 个 语义 子 程 序 与 先前 的 semantic016 、semantic025 〈 数 
组 声明 部 分 的 语义 子 程序 ) 是 非常 类 似 的 。 


程序 4-19 semantic.cpp 


SymbolTbl.TypeInfoTbl.at(iTypePos.topO).m_eDataType=StoreType::T_ RECORD; 


在 处 理 记录 类 型 声明 时 ， 必 然 涉及 “标识 符 列表 ”。 根 据 先前 的 讨论 ， 由 于 


相关 文法 : 
记录 类 型 ”一 ”record 019 字段 列表 end 020 
1] boolsemantic019() 
2 1{ 
| 3 
4 iTypeFlag.push(1); 
9 ildListFlag.push(2); 
6 return true; 
7 } 
8 boolsemantic020() 
” 
10 iTypeFlag.pop(); 
11 ildListFlag.pop(); 
2 return true; 
[SB } 
第 6 行 : 
“标识 符 列表 ” 


固定 字段 的 语义 处 理 。 从 文法 来 看 ，“ 字 段 固定 部 分 ”并 没有 设置 语义 子 程序 ， 实 际 并 
非 如 此 。 由 于 “标识 符 列表 ”、“ 类 型 ”都 是 非 终 结 符 ， 因 此 ，“ 标 识 符 列表 ”及 “类 
型 ”相关 产生 式 中 包含 的 语义 子 程序 都 有 可 能 在 分 析 过 程 中 被 调用 。 在 此 过 程 中 ， 编 译 
器 必须 协调 处 理 非 终结 符 复 用 的 情况 ， 即 通过 设置 相应 的 标志 以 标识 分 析 状 态 。 虽 然 先 


存在 多 处 复 用 ， 因 此 ， 不 得 不 运用 iIdListFlag 栈 加 以 标识 。 
Pascal 记录 类 型 的 字段 可 以 分 为 两 类 : 固定 字段 、 可 变 字 段 。 首 先 ， 笔 者 介绍 有 关 


前 已 经 讨论 了 这 两 个 非 终 结 符 的 相关 语义 子 程序 ， 却 并 没有 完整 地 给 出 semantic012、 


semantic015 的 源 代码 。 下 面 ， 笔 者 就 将 讨论 这 


语义 动作 。 


程序 4-20 semantic.cpp 


列表 一 标识 符 012 标识 符 列表 1 
列表 1 一 ,标识 符 012 标识 符 列表 1 


1 boolsemantic012() 


相关 文法 : 
标识 符 
标识 符 
of{ 
3 要 


珊 个 语义 子 程序 中 与 记录 类 型 声明 相关 的 
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4 if (ildListFlag.top()==2) | 
5 { 
6 FieldInfo Tmp; 
7 Tmp.m szName=TokenList.at(iListPos-1).m_ szContent; 
8 Tmp.m iState=0; 
9 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
10 for(int i=SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_FieldInfo.size()-1;i>=0;i-—-) 
11 { 
12 string szTmp=SymbolTbl.TypeInfoTbl.atiTypePos.top()).m_ FieldInfo.at(1).m_ szName; 
13 if (szTmp.compare(Tmp.m szName)—0) 
14 { 
15 EmitError(Tmp.m_szName.append(" 域 名 已 经 存在 "),TokenList.at(iListPos-1)); 
16 return false; 
17 } 
18 } 
19 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ FieldInfo.push_ back(Tmp); 
20 } 
| 0...... 
B20} 


a 


第 8 行 : 设置 m iState 属性 。 注 意 ， 这 里 的 m iState 并 不 是 隶属 于 类 型 信息 表 项 的 。 在 
讨论 符号 表 结 构 时 ， en 这 个 属性 并 不 是 一 个 符号 
属性 ， 仅 仅 是 为 了 便于 语义 子 程序 登记 符号 表 而 设置 的 一 个 临时 属性 。 也 就 是 说 ， 当 语 
析 器 完成 符号 表 登 记 后 ， 这 个 属性 也 就 失去 了 实际 意义 ， 它 不 会 为 后 续 编 译 阶段 提供 ye 
价值 的 信息 电 。 至 于 设置 m_iState 属性 的 目的 也 并 不 复杂 ， 主 要 用 于 处 理 多 个 字段 隶属 于 同一 

类 型 的 情况 。 例 如 : 


TYPE 


c=RECORD aa,bb,cc:INTEGER:; END; 


根据 符号 表 的 设计 ， 这 3 个 字段 的 m_iLink 将 指向 同一 个 类 型 信息 表 项 。 当 然 ， 
这 种 声明 方式 可 能 会 给 语义 分 析 带 来 一 些小 小 的 不 便 。 a 
源 程序 ， 在 处 理 aa、bb 两 个 字段 表 项 时 ， 编 译 器 将 无 法 预知 其 类 型 ， 当 然 ， 也 无 法 填 
写 m_iLink 指针 。 当 分 析 到 cc 字段 时 ， 编 译 器 才 可 以 获得 其 类 型 表 项 的 指针 。 注 意 ， 
至 此 编译 器 仍 无 法 预知 类 型 的 详情 ， 仅 能 知道 其 类 型 表 项 指针 而 已 。 不 过 ， 人 和 凭借 此 信 
妃 也 足以 填写 m_iLink 指针 了 。 此 时 ， 编 译 器 必须 将 获得 的 指针 信息 同时 回填 到 以 上 3 
个 字段 的 m_iLink 属性 中 ， 因 此 ， 编 译 器 就 必须 根据 一 个 特殊 的 标志 属性 来 判断 哪些 
字段 需要 回填 。 设 置 m iState 属性 的 目的 正在 于 此 。 

第 11 行 : 这 是 一 个 循环 判断 的 过 程 ， 主 要 用 于 判断 字段 名 是 否 已 被 占用 。 根 据 Pascal 
的 规定 ， 字 段 的 可 见 域 仅 限 于 其 直属 记录 类 型 范围 内 。 因 此 ， 编 译 器 只 需 在 当前 类 型 的 字段 
列表 范围 内 判断 当前 符号 名 是 否 已 被 占用 即 可 。 
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程序 4-21 semantic.cpp 


相关 文法 : 
类 型 ”一 ”015 构造 类 型 010 


1 boolsemantic015() 
2 1{ 
Bl 
4 if iTypeFlag.top()==1) 
5 { 
6 TypeInfo Tmp; 
了 Tmp.m szName=" noname"; 
8 Tmp.m_ szName.append(GetSerialld()); 
9 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
10 Tmp.m iState=0; 
11 SymbolTbl.TypeInfoTbl.push back(Tmp); 
jl% int i=SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_FieldInfo.size()-1; 
13 int iTmpTypePos=iTypePos.top(); 
14 iTypePos.push(SymbolTbl.TypeInfoTbl.size()-1); 
15 while (i>=0) 
16 { 
17 if (SymbolTbl.TypeInfoTbl.at(iTmpTypePos).m _ FieldInfo.at(i).m iState—0) 
18 { 
19 SymbolTbl.TypeInfoTbl.ati TmpTypePos).m FieldInfo.at().m iLink=iTypePos.top(); 
20 SymbolTbl.TypeInfoTbl.at(iTmpTypePos).m_ FieldInfo.at(i).m iState=1; 
21 } 
多 2 1 
23 } 
24 } 
Bl 0...... 
26 } 


第 4 行 : 根据 ypeFlag 标志 栈 ， 完 成 相应 的 语义 动作 。 

第 7、8 行 : 设置 临时 表 项 的 m_szName 的 名 字 。 前 面 ， 笔 者 已 经 六 
的 处 理 ， 这 里 不 再 殴 述 。 

第 11 行 : 将 类 型 信息 表 项 加 入 类 型 信息 表 中 。 

第 15~23 行 : 循环 回填 字段 的 m_iLink 属性 。 这 是 一 个 逆向 处 理 的 过 程 ， 从 当前 类 型 
的 字段 信息 表 表 未 开始 ， 逐 一 向 上 查询 至 表 首 。 

至 此 ， 完 成 了 记录 类 型 固定 部 分 的 语义 分 析 及 符号 表 登 记 工作 。 下 面 ， 继 续 来 讨论 
可 变 部 分 的 相关 语义 子 程序 。 可 变 部 分 的 文法 看 似 比 较 繁 复 ， 但 实际 上 其 语义 处 理 却 不 
复杂 。 

这 里 ， 有 必要 说 明 一 点 ， 严 格 地 说 ，Neo Pascal 的 记录 类 型 与 标准 Pascal 还 是 存在 一 定 
差别 的 。 主 要 的 区 别 在 于 可 变 部 分 的 case 结构 ， 标 准 Pascal 并 没有 明确 规定 case...of 之 间 
必须 是 “标识 符 : 类 型 ”结构 ， 通 常 允 许 省 略 “标识 符 : ”。 然 而 ，Neo Pascal 的 文法 却 不 
允许 省 略 “标识 符 : ”。 下 面 ， 就 从 语义 分 析 的 角度 来 看 看 其 相关 的 实现 。 


Hm 
\NS 


分 析 了 匿名 类 型 
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程序 4-22 semantic.cpp 


相关 文法 : 


字段 可 变 部 分 “一 case 标识 符 029 : 类 型 of033 字段 可 变 部 分 1 034 end 030 ; 


{ 


19  } 


bool semantic029() 


FieldInfo Tmp; 
Tmp.m_ szName=TokenList.at(iListPos-1).m_ szContent; 
Tmp.m iState=0; 
Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
for(int i=SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ FieldInfo.size()-1;i>=0;i--) 
{ 
string szTmp=SymbolTbl.TypeInfoTbl.atiTypePos.top()).m FieldInfo.at(i).m szName; 
if (szTmp.compare(Tmp.m szName)==0) 
{ 
EmitError(Tmp.m_szName.append(" 域 名 已 经 存在 "),TokenList.at(iListPos-1)); 
return false; 


} 
szVarFieldFlag.push(Tmp.m szName); 


SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_FieldInfo.push_back(Tmp); 
return true; 


semantic029 与 Semantic012 (部 分 ) 非常 相似 ， 除 了 第 16 行 外 ， 可 以 说 是 完全 相同 自 
semantic029 主要 就 是 用 于 处 理 位 于 case...of 结构 之 间 的 字段 (暂且 称 为 “可 变 部 分 的 标志 字 


段 ”)。 从 


字段 同时 还 承担 着 标识 一 个 可 变 字段 集 的 功能 。 从 Neo Pascal 符号 表 的 结构 而 言 ， 实 际 上 


的 。 


j 户 的 角度 而 言 ， 可 变 部 分 的 标志 字段 同样 被 视 作 普通 的 固定 字段 。 不 过 ， 这 个 


字段 列表 中 的 m_szVarFieldFlag 属性 存储 的 就 是 所 属 case 结构 的 可 变 区 域 标识 字段 名 。 

第 16 行 : 将 可 变 部 分 的 标志 字段 入 栈 。 根 据 符 号 表 的 设计 ， 该 字段 所 属 case 结构 中 的 
所 有 字段 的 m_szVarFieldFlag 属性 都 将 填 入 该 字段 名 。 显 然 ， 在 semantic029 中 是 无 法 完成 
的 ， 编 译 器 必须 将 该 字段 名 暂 存 ， 以 备 后 用 。 至 于 为 什么 使 用 栈 结构 保存 该 字段 名 ? 原因 非 


| 9 


常 简单 ， 记 录 类 型 的 可 变 部 分 同样 存在 复杂 的 类 型 嵌 套 。 根 据 先 前 的 讨论 ， 栈 结构 非常 有 利 


于 处 理 这 种 嵌 套 引起 的 递 推 及 回归 问题 。 


semantic030 的 功能 非常 简单 ， 主 要 工作 就 是 将 先前 压 入 的 可 变 区 域 字 段 名 出 栈 ， 保 证 


栈 的 平衡 即 可 。 
程序 4-23 semantic.cpp 


相关 文法 : 


字段 可 变 部 分 一 case 标识 符 029 : 类 型 of033 字段 可 变 部 分 1 034 end 030 ; 


bool 
{ 


semantic030() 


szVarFieldFlag.popO); 


return true; 


137 


B R i 
罗 。 编译 器 设计 之 路 
[ 


semantic033、semantic034 的 功能 非常 单一 ， 主 要 工作 就 是 处 理 iIdListFlag 标志 栈 。 字 
段 可 变 部 分 的 字段 名 的 处 理 与 固定 部 分 的 字段 名 的 处 理 动作 是 不 同 的 ， 主 要 体现 在 两 者 所 需 
填写 的 符号 表 属 性 不 完全 一 致 。 通 常 ， 都 借助 于 iIdListFlag 标志 栈 以 区 分 不 同 的 语义 动作 ， 
这 种 解决 方式 已 经 多 次 使 用 了 ， 读 者 应 该 并 不 陌生 。 


程序 4-24 semantic.cpp 


相关 文法 : 
字段 可 变 部 分 一 case 标识 符 029: 类 型 of033 字段 可 变 部 分 1 034 end 030; 

1 boolsemantic033() 
i{ 
3 ildListFlag.push(3); 
4 return true; 
oa } 
6 boolsemantic034() 
7 有 
8 ilIdListFlag.pop(; 
9 return true; 
10 } 


既然 提 到 了 itdListFlag 标志 栈 ， 就 有 必要 分 析 一 下 非 终结 符 “ 标 识 符 列表 ”相关 语义 子 
程序 当 itdListFlag 栈 顶 标志 为 “3” 时 的 具体 处 理 动作 。 根 据 前 面 的 经 验 ， 非 终结 符 “ 标 识 
符 列表 ”有 关 语 义 子 程序 就 是 semantic012。 实 际 上 ， 与 先前 固定 部 分 的 处 理 类 似 ， 可 变 部 
分 处 理 的 要 点 同样 在 于 此 。 下 面 ， 就 给 出 semantic012 中 的 相关 源 代码 。 


程序 4-25 semantic.cpp 
相关 文法 : 
标识 符 列表 一 标识 符 012 标识 符 列表 1 
标识 符 列表 1 一 ， 标 识 符 012 标识 符 列表 1 


1] bool semantic012() 

2 1{ 

9. 

4 if (iIdListFlag.top()==3) 

5 { 

6 FieldInfo Tmp; 

了 Tmp.m szName=TokenList.at(iListPos-1).m_ szContent; 

8 Tmp.m iState=0; 

9 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
10 Tmp.m szVarFieldConst=szVarFieldConst.top(); 
11 Tmp.m szVarFieldFlag=szVarFieldFlag.top(); 
12 for(int i=SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_ FieldInfo.size()-1;i>=0;i--) 
13 { 
14 FieldImfo *pTmp=&SymbolTbl.TypeInfoTbl.atGTypePos.topO).m_ FieldInfo.at(i); 
15 if (pTmp->m szName.compare(Tmp.m szName)==0) 
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16 { 

ll% EmitEror(Tmpm_szName.append(" 域 名 已 经 存在 "),TokenList.at(iListPos-1)); 
18 return false; 

19 } 

20 if (pTmp->m iState==1 && 

ll pImp->m szVarFieldConst.compare(Tmp.m szVarFieldConst)==0 && 
2 pImp->m szVarFieldFlag.compare(Tmp.m szVarFieldFlag)==0 ) 

2 { 

24 EmitEror(Tmpm_szName.append(" 常 量 值 已 经 存在 "),TokenList.at(iListPos-1)); 
2 return false; 

26 } 

2 } 

28 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_FieldInfo.push_ back(Tmp); 

29 } 

B00 Oo...... 

Su} 


实际 上 ， 读 者 不 难 发 现 ， 这 部 分 与 先前 固定 部 分 相关 处 到 


的 源 代 码 结构 还 是 比较 


类 似 的 。 下 面 ， 笔 者 只 针对 其 中 的 差异 稍 作 解 释 ， 其 余部 分 的 分 析 请 读者 参见 先前 章 


二 


Ti 


第 10、11 行 : 设置 符号 表 表 项 的 m_szVarFieldConst、m_szVarFieldFlag 属性 。 分 别 将 


szZVarFieldConst、szVarFieldFlag 两 个 栈 的 栈 顶 元 素 赋 给 了 这 两 个 属性 。szVarFieldFlag 栈 前 


非常 类 似 的 。 


第 20 一 26 行 : 这 个 if 语句 主要 是 用 于 判断 m_szVarFieldConst、m _szVarFieldFlag 属性 
的 值 是 否 有 效 。 根 据 Pascal 语言 的 规定 ， 同 一 个 可 变 


面 已 作 说 明 ， 而 szVarFieldConst 栈 的 功能 就 是 用 于 和 暂 存 各 case 常量 ， 有 基体 的 结构 与 前 者 是 


允许 重复 的 ， 但 不 同 可 变 区 域内 的 常量 值 是 允许 重复 的 。 


最 后 看 看 semantic031、semantic032 这 


szVarFieldConst 栈 的 管理 有 关 。 


程序 4-26 semantic.cpp 


相关 文法 : 
字段 可 变 部 分 1 一 


常量 031 : ( 字段 列表 ) 032 ; 字段 可 变 部 分 1 | 


int 1=atoi(TokenList.at(iListPos-1).m szContent.c_str()); 
szVarFieldConst.push(SymbolTbl.ConstInfoTbl.at().m_ szVal); 


1 bool semantic031() 
2 上 | 

3 

4 

5 return true; 

eu } 

7 bool semantic032() 
By 1{ 


上 TF 
La 


区 域 〈 即 case 结构 〉 内 的 常量 值 是 


浊 


两 个 语义 子 程序 的 相关 实现 。 前 面 ， 笔 者 已 经 分 
析 了 semantic029、semantic030， 读 者 应 该 了 解 它 们 的 主要 功能 就 是 管理 szVarFieldFlag 栈 ， 


但 至 今 未 提 到 szVarFieldConst 栈 的 相关 管理 。 因 此 ， 也 就 不 难 想到 这 两 个 语义 子 程序 可 能 与 
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时 R i 
四 、 编译 器 设计 之 路 
Ci 


9 szVarFieldConst.popO); 
10 return true; 
We } 
4. 指针 类 型 


熟悉 C 语言 的 读者 对 指针 类 型 应 该 } 
可 以 为 程序 设计 提供 不 少 便利 。 不 过 ， 指 针 是 一 把 双 刃 剑 ， 


t 至 握 弃 了 这 一 机 制 。 关 于 指针 的 讨论 可 i 
从 研究 一 门 程序 设计 语言 的 角度 而 言 ， 指 针 机 4 


不 陌生 ， 有 不 少 人 坚持 认为 强大 、 灵 活 的 指针 机 制 
自 诞 生 之 日 起 ， 就 一 直 饱 受 争 


些 新 型 语言 (例如 ， 
胃 众 说 纷 猎 ， 在 此 ， 笔 者 


还 是 值得 深入 剖 


析 的 ， 很 多 经 典 的 论题 都 是 在 指针 基础 上 讨论 的 。 下 面 ， 就 先 来 看 看 指针 类 型 声明 的 相关 


议 。 有 些 程序 设计 语言 学 家 认为 指针 是 一 种 极 不 安全 的 语法 结构 ， 
Java、C#、Python 等 ) 
也 不 便 多 作 评 说 。 不 过 ， 
文法 。 
【文法 4-11】 
类 型 一 ”015 指针 类 型 010 
指针 类 型 人 ^ 简单 类 型 
简单 类 型 一 
这 里 ， 引 入 了 一 个 非 终 结 符 “简单 类 型 >”， 其 


标识 符 008 | char 009 | boolean 009 | integer 009 | byte 009 | shortint 


009 | smallint 009 | word 009 | longword 009 | cardinal 009 | real 009 | single 009 


主要 原因 


名 类 型 作为 指针 的 基 类 型 。 例 如 : 


【声明 4-16】 
TYPE 


【声明 4-17】 
TYPE 


声明 4-16 是 非法 的 Pascal 声明 ] 
编译 器 接受 。 这 是 由 于 Pascal 语言 是 
针 及 其 所 指向 元 素 站 


a=^ARRAY [1..10] OF INTEGER; 


b=ARRAY [1..10] OF INTEGER.; 


a= 人 ^b; 


~ 


形式 ， 只 有 将 


~ 


改写 成 声明 4-17 


就 是 由 于 标准 Pascal 不 支持 将 匿 


的 形式 ， 才 能 被 


一 门 强 类 型 语言 ，Pascal 编译 器 必须 严格 检查 指 


的 类 型 是 否 兼容 。 显 然 ， 依 据 这 一 规定 ， 基 类 型 为 匿名 类 型 的 指针 


将 失去 
暂且 不 ， 


王 何 实用 价值 。 实 际 上 ， 不 同 语言 对 于 类 型 
深入 讨论 该 话题 ， 读 者 只 需 了 解 一 点 ， 即 Pascal 处 理 类 型 


处 理 的 ， 


类 型 机 制 。 


这 是 与 C 语言 截然 不 同 的 。 而 C 程 


从 Neo Pascal 的 文法 可 知 ， 与 指针 类 型 声 
， 笔 者 就 详细 分 析 这 两 个 语义 子 程序 。 


semantic009。 下 面 


序 员 不 适应 Pascal 的 了 


容 的 定义 是 存在 差异 的 。 这 里 ， 
的 基本 策略 


要 原 


是 从 严 
因 也 在 于 其 强 


明 相 关 的 语义 子 程序 主要 有 


显而易见 ，semantic008 是 用 于 处 理 指 向 用 户 自 定义 类 型 的 指针 声 
就 是 根据 用 户 自 定义 类 型 的 名 字 检 索 符 号 表 ， 判 断 该 名 字 是 否 有 效 ， 妇 


造 类 型 链 。 
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Semantic008 、 


明 ， 语 义 子 程序 
0 有 效 则 准备 构 


符号 表 系 统 ] 第 


程序 4-27 semantic.cpp 

相关 文法 : 
简单 类 型 ”一 标识 符 008 
bool semantic008() 


{ 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_eDataType=StoreType::T_POINTER:; 


4 息 


SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_szContent=TokenList.at(iListPos-1).m szContent; 


i=SymbolTbl.SearchTypeInfoTbl(SymbolTbl.ProcStack.top(), 


1 

多 

3 

4 

S int i; 
6 

区 TokenList.at(iListPos-1).m szContent,false); 
8 

9 


if(i!=-1) 
{ 
10 if (SymbolTbl.TypeInfoTbl.at(i).m iState!=1) 
11 { 
12 EmitError(" 指 针 指 向 的 类 型 声明 不 完整 ",TokenList.at(iListPos-1)); 
13 return false; 
14 } 
15 } 
16 return true; 


i7 } 


第 4 行 : 设置 类 型 信息 表 项 的 m_szContent 属性 。 读 者 可 能 有 疑问 ， 为 什么 需要 设置 这 


个 属性 ? 为 什么 在 semantic008 中 没有 设置 m_iLink 属性 〈( 即 构造 类 型 链 )? 


明 的 。 这 是 指针 类 型 的 一 个 非常 特殊 的 性 质 ， 是 其 他 复合 类 型 都 不 具备 的 。 


【声明 4-18】 
A=ARRAY [1..10] OF ARRAY [1..20] OF INTEGER:; 


在 讲解 符号 表 结构 时 ， 笔 者 曾经 提 到 过 m_iState 属性 的 作用 及 其 指针 类 型 声明 的 特殊 
性 。 根 据 先前 的 分 析 ， 读 者 应 该 已 经 知道 ， 指 针 类 型 的 基 类 型 并 不 一 定 是 在 指针 类 型 之 前 声 


在 分 析 指 针 类 型 声明 时 ， 由 于 指针 类 型 的 基 类 型 可 能 出 现在 后 续 菜 一 个 位 置 上 ， 编 译 器 
是 无 法 预知 的 ， 这 种 情况 与 先前 讨论 的 匿名 类 型 是 完全 不 同 的 。 例 如 ， 声 明 形式 如 下 : 


编译 器 在 分 析 A 类 型 时 ， 可 以 确定 A 是 数组 类 型 ， 并 且 其 基 类 型 是 一 个 匿名 类 型 。 虽 
然 编译 器 无 法 预知 其 后 的 匿名 类 型 的 复合 层次 ， 但 可 以 知道 其 在 源 程序 中 的 位 置 。 因 为 根据 
数组 类 型 的 文法 ， 如 果 其 基 类 型 为 匿名 类 型 ， 则 必须 出 现在 “OF” 之 后 。 不 过 ， 这 一 约定 


却 并 不 适用 于 指针 类 型 。 


Hm 
tun 


Hr 


连 。m_szContent 属性 就 是 用 于 暂 存 基 类 型 的 名 字 。 


在 分 析 指针 关 型 声明 时 ， 通 常 只 是 将 基 类 型 的 名 字 记 录 下 来 ， 待 类 型 声明 分 析 完毕 后 ， 
新 遍历 类 型 信息 表 ， 根 据 记 录 下 来 的 名 字 检 索 类 型 信息 表 ， 回 填 m_iLink 属性 ， 构 造 类 型 


型 。 类 似 于 


第 10 行 : 注意 这 个 判断 并 不 是 多 余 的 ， 主 要 用 于 避免 指针 引用 自身 类 


“A=^A;” 的 声明 形式 。 虽 然 这 种 指针 引用 形式 本 身 并 不 存在 语义 错误 ， 但 标准 Pascal 却 并 


TT 


不 支持 。 
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@ 
加 


Se 


那么 ， 编 译 器 又 是 如 何 回 


编译 器 设计 之 路 


填 m_iLink 


= 
是 
及 


性 的 ? 根据 前 面 所 说 的 ， 编 译 器 将 在 适当 的 时 


刻 完 成 此 项 工作 。 那 么 ， 到 底 何 为 适当 的 时 刻 呢 ? 实际 上 ， 在 分 析 完 一 个 过 程 或 函数 的 声 


明 部 分 后 ， 编 译 器 就 将 调用 CSymBolTbl.PtrCheck 函数 ， 以 完成 m_iLink 回填 
分 析 CSymBolTbl.PtrCheck 函数 的 实现 。 先 看 看 


面 ， 笔 者 将 详 


程序 4-28 Symbol.cpp 


的 工作 。 下 


HH 


口 


真 m_iLink 属性 的 具体 


这 TypeInfoTbl.at().m_eDataType==StoreType::T POINTER 
&& !TypeInfoTbl.at().m szContent.empty()) 


int j=SearchTypeInfoTbl(TypeInfoTbl.at(i).m _iProcIndex, 
TypeInfoTbl.at(i).m_ szContent,false); 


j=SearchTypeInfoTbl(0,TypeInfoTbl.at(i).m_ szContent,false); 


TypelInfoTbl.at(i).m_ szContent=""; 
TypelInfoTbl.at(i).m iLink=j; 


1 boolCSymbolTbl::PtrCheck(int &iPos) 
2 上 | 
3 int i=0; 
4 for (i=0;i<TypeInfoTbl.size();i++) 
5 { 
6 
所 
8 
9 
10 
11 if (==-1) 
12 
13 if 0!=-1) 
14 { 
15 
16 
ly } 
18 else 
19 { 
20 iPos=i; 
2 return false; 
2 } 
23 } 
24 } 
25 return true; 
200 } 


第 6、7 行 : 判断 该 类 型 信息 表 项 是 否 为 TPOINTER 类 型 且 是 否 需要 回填 m iLink。 当 
表 项 的 m _szContent 属性 不 为 空 时 ， 即 表示 该 表 项 需要 回填 m iLink 属性 。 


第 9、10 行 : 检索 当前 过 程 的 类 型 信息 表 。 相 


优先 检索 直接 所 属 过 程 的 类 型 信息 表 项 。 


第 12 行 : 当 检 索 直接 所 属 
言 息 表 。 当 然 ， 由 于 Neo Pascal 不 允许 过 程 
作 变 得 相对 容易 。 如 果 按 照 标 准 Pascal 的 规 
第 20 行 : 当 两 次 检索 都 失败 后 ， 表 明 
的 声明 是 非法 的 。 函 数 必须 回 


表示 该 指针 
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局 
于 


过 程 的 类 型 


定 ， 乡 


言 息 表 失败 后 


该 指针 指向 的 


民 据 Pascal 语言 名 字 空 间 的 规定 ， 乡 


译 器 将 


， 编 译 器 将 继续 检索 主 程序 的 类 型 


、 函 数 〈 除 主 程序 
4 译 器 将 由 


内 向 


) 的 嵌 套 声明 ， 所 以 检索 工 
外 逐 级 检索 。 


j 户 自 


定义 类 型 名 字 并 不 存在 ， 即 


传 该 指针 表 项 的 指针 〈 即 通过 iPos 引用 参数 实 


符号 表 系 统 


现 ) ， 便 于 语义 子 程序 报告 错误 。 


程序 4-29 semantic.cpp 


第 4 齐 


简单 类 型 ”一 char 009 | boolean 009 | integer 009 | byte 009 | shortint 009 | smallint 009 


| word 009 | longword 009 | cardinal 009 | real 009 | single 009 
bool semantic009() 


1 

2 1 

3 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m_eDataType=StoreType::T_POINTER; 
4 SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m iLink=SymbolTbl.TypelInfoTbl.size(); 
5 TypeInfo Tmp; 

6 Tmp.m iState=1; 

7 Tmp.m szName=" noname"; 

8 Tmp.m szName.append(GetSerialld()); 

9 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 


10 Tmp.m eDataType=CType::TokenToEnum(TokenList.at(iListPos-1).m iKind); 
11 Tmp.m eBaseType=CType::TokenToEnum(TokenList.at(iListPos-1).m iKind); 
12 SymbolTbl.TypeInfoTbl.push_ back(Tmp); 

13 return true; 

14 } 


第 6 行 : 与 smantic008 的 处 理 完 全 不 同 ， 由 于 指针 基 类 型 都 是 基本 类 型 


， 所 以 构造 类 


型 链 变 得 非常 容易 。 语 义 子 程序 只 需 为 基 类 型 增加 一 个 表 项 ， 然 后 通过 m_iLink 属性 将 两 者 


链接 起 来 即 可 。 


第 8 行 : 由 于 基 类 型 是 一 个 基本 类 型 ， 又 是 一 个 匿名 类 型 。 编 译 器 并 不 需 
m iState 属性 。 


5. 集合 类 型 


Pascal、Delphi 程序 员 很 少 使 用 集合 类 型 。 即 便 如 此 ，Pascal 集合 类 型 却 成 为 


要 过 多 里 会 其 


虽然 Pascal 的 集合 类 型 可 能 是 对 传统 数据 类 型 的 一 种 突破 与 丰富 ， 但 是 笔者 个 人 认为 
Pascal 的 集合 类 型 的 设计 并 不 成 功 。 由 于 它 的 限制 较 多 ， 因 此 应 用 领域 非常 之 小 ， 许 


上 


多 
了 先驱 ， 是 后 


来 程序 设计 语言 完美 实现 集合 类 型 的 芮 基石 。 其 中 ，C++ 的 set 模板 类 就 是 一 个 成 功 的 实 


例 。 当 然 ， 考 虑 到 尽 可 能 兼容 标准 Pascal 语言 ， 所 以 Neo Pascal 依然 保留 了 和 集 
类 型 的 相关 文法 非常 简单 ， 只 有 一 条 产生 式 。 下 面 ， 笔 者 就 简单 分 析 一 下 集合 
关 源 代码 实现 。 


程序 4-30 semantic.cpp 

相关 文法 : 
集合 类 型 一 set024 of 类 型 025 
bool semantic024() 


{ 


SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m _eDataType=StoreType::T_SET.; 
iTypeFlag.push(2); 


人 玉 中 局 一 


合 类 型 。 集 合 
类 型 声明 的 相 
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B ER i 
罗 、 编译 器 设计 之 路 
ee 


return true; 

} 

bool semantic025() 

{ 
iTypeFlag.pop(); 
return true; 


化 


A 


声明 时 ， 笔 者 已 经 详细 分 析 了 iTypeFlag 标志 栈 的 作用 以 及 构造 类 型 
述 。 根 据 先 前 的 讲述 ， 类 型 链 的 构造 将 在 


合 类 型 声明 的 语义 处 理 比较 简单 ， 主 要 是 基 二 


FE 终结 符 “ 类 型 ”的 相关 推 


iTypeFlag 标志 栈 的 操作 。 在 介 


数组 
链 的 过 程 ， 这 里 不 再 更 
导 过 程 中 完成 。 


在 标准 Pascal 语言 中 ， 集 合 类 型 的 基 类 型 必须 满足 两 个 条 件 : 一 是 有 序 类 型 ; 


允许 取 值 总 数 不 能 超过 256。 在 Pascal 语言 中 ， 


所 允许 的 最 大 元 素 个 数 是 限定 的 ， 这 是 由 


人 对 


集合 类 型 通常 指 的 是 一 个 有 限 的 集合 ， 
Pascal 集合 类 型 的 实现 内 核 决定 的 。 实 际 上 ，Pascal 


即 集合 


集合 类 型 的 实现 内 核 并 不 复杂 ， 每 个 集合 类 型 变量 都 有 32B 〈 即 256 位 ) 的 存储 空间 ， 每 个 位 


表示 一 


Pascal， 同 样 采 用 这 种 并 不 高 效 的 实现 机 制 
现 方式 随 之 产生 。 有 兴趣 的 读者 可 以 参考 


了 解 了 Pascal 


个 集合 元 素 ， 使 
的 实现 机 制 分 析 ， 不 难 发 现 ， 


位 与 、 位 或 等 操作 来 模拟 集合 的 交 、 
它 是 比较 低 效 的 ， 并 且 又 有 一 定 的 局 限 
机 制 还 一 直 被 Turbo Pascal、Delphi 等 编译 器 沿用 至 今 。 


集合 类 型 的 特性 


算 。 从 Pascal 集合 类 型 


局 


Neo Pascal 为 了 


E 。 即 便 如 此 ， 这 种 实现 
尽 可 能 兼容 标准 


。 当 然 ， 随 着 人 们 的 研究 深入 ， 不 少 更 为 高 效 的 实 
究 C++ 的 相关 实现 ， 相 信 必 
后 就 不 难 发 现 ， 构 造 集 合 类 型 链 相 关 的 语义 子 程序 主要 包 
括 : Semantic01$、semantic007、semantic011、semantic023 。 由 于 这 些 语义 子 程序 都 存在 多 重 


定 能 获 益 民 多 。 


uy 


复 用 ， 所 以 必须 根据 iTypeFlag 标志 栈 的 标识 执行 相应 的 语义 动作 。semantic015 、 


semantic011 已 在 数组 


类 型 声 


明 章 节 中 详细 分 析 过 ， 


不 再 费 述 


semantic007 的 相关 语义 动作 ， 而 semantic023 暂且 不 作 讨 论 。 


semantic007 主要 用 对 


。 下面， 主要 来 看 看 


处 理 基 类 型 是 基本 类 型 ( 枚 举 类 型 除外 ， 


char 007 | boolean 007 | 整数 类 型 | 枚 举 类 型 
real 007 | single 007 
integer 007 | byte 007 | shortint 007 | smallint 007 | word 007 


| longword 007 | cardinal 007 


日 semantic011 处 理 ) 的 


SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m iLink=SymbolTbl.TypeInfoTbl.size(); 
SymbolTbl.TypeInfoTbl.at(iTypePos.top()).m iState=1; 


集合 类 型 声明 。 
程序 4-31 semantic.cpp 
相关 文法 : 
有 序 类 型 一 
无 序 类 型 一 
整数 类 型 一 
1] bool semantic007() 
2 上 
3 了 (iTypeFlag.topO==2) 
4 
S 
6 
了 TypeInfo Tmp; 
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Tmp.m iState=1; 


Tmp.m szName=" noname"; 


Tmp.m szName.append(GetSerialld()); 
Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
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Tmp.m eDataType=CType::TokenToEnum(TokenList.at(iListPos-1).m iKind); 
Tmp.m eBaseType=CType::TokenToEnum(TokenList.at(iListPos-1).m iKind); 


if (Tmp.m eBaseType—StoreType::T BOOLEAN || 
Tmp.m eBaseType==StoreType::T_BYTE || 
Tmp.m eBaseType==StoreType::T_CHAR || 
Tmp.m eBaseType==StoreType::T_SHORTINT ) 


SymbolTbl.TypeInfoTbl.push_ back(Tmp); 
return true， 


else 

{ 
EmitError(" 集 合 类 型 的 基 类 型 不 正确 ",TokenList.at(iListPos-1)); 
return false; 

} 


蜡 结 点 ， 即 主 属 类 型 结 点 和 基 类 型 结 点 。 与 数组 声明 不 同 的 是 集合 类 型 的 基 类 
昌 semantic015 产生 的 ， 而 是 由 基 类 型 相关 的 语义 子 程序 直接 生成 的 。 例 如 ， 
这 里 的 semantic007 就 是 基 类 型 的 语义 子 程序 ， 读 者 只 要 比较 semantic007 9 


志 的 语义 动作 ， 便 可 理解 其 中 的 差别 了 。 当 然 ， 采 用 与 数组 声明 处 理 


行 : 设置 表 项 的 m_iLink 属性 ， 构 造 类 型 链 。 集 合 类 型 的 类 型 链 是 比较 简单 的 ， 只 


FP 针 对 不 同类 型 标 


行 的 ， 只 是 程序 逻辑 可 能 复杂 一 些 。 
第 7 一 13 行 : 生成 一 个 临时 类 型 结 点 ， 将 其 设置 为 基 类 型 结 点 。 
第 14 一 17 行 : 用 于 判断 集合 类 型 的 基 类 型 是 否 为 合法 类 型 。 这 里 ， 不 必 考 虑 枚 举 类 型 


的 情况 ， 因 为 semantic007 并 不 需要 


理 | 


semantic011 完成 ， 先 前 笔者 已 作 了 详细 分 析 。 


6. 字符 串 类 型 
字符 串 类 型 是 一 种 常用 的 数据 类 型 ， 其 应 用 领域 极为 广泛 。 随 着 计算 机 的 广泛 普及 ， 从 


应 用 角度 而 言 ， 字 符 串 处 理 的 重要 性 可 能 已经 凌 罗 于 传统 数值 处 理 Z 
务 、 Web 应 用 、 信息 检索 等 等 。 实际 上 ， 乡 


i 译 技术 也 与 字符 串 处 理 


: 顾 枚 举 类 型 声明 的 相关 语义 处 到 


E 类 似 的 方式 也 是 完全 可 


E。 枚 举 类 型 的 语义 处 


EF 了， 例如， 办 公 服 
着 密切 的 联系 。 不 过 ， 


在 20 世纪 六 七 十 年 代 ， 计 算 机 的 主要 应 用 还 局 限 在 数值 计算 领域 ， 不 少 程序 设计 语言 对 于 


字符 串 处 理 的 支持 都 不 尽 理想 。 


也 六 


不 允 放 


型 。 它 们 将 字符 串 的 逻辑 、 物 理 结构 完全 暴露 在 


严格 地 说 ， 无 论 是 C 语言 的 字符 指针 还 是 Pascal 的 字符 


当然 ， 一 个 重要 的 事实 也 不 可 否认 ， 那 就 是 当时 的 硬件 环境 
程序 设计 语言 支持 过 于 复杂 的 字符 串 处 理 操作 。 
数组 都 不 属于 真正 的 字符 串 类 


] 户 面前 ， 其 唯 


目的 就 是 希望 由 


户 为 某 


145 


B ER i 
辐 、 编译 器 设计 之 路 
ee 


些 复杂 的 


字符 串 操 作 人 负责 ， 至 于 这 些 操作 的 效率 与 怕 


然而 ，Delphi、C# 等 商用 


有 译 器 在 全 


符 串 应 用 方面 就 做 得 比较 好 ， 


Anders Hejlsberg 之 手 的 原因 吧 ， 两 者 字符 串 的 内 核实 现 机 制 ( 


构 ， 并 不 考虑 .NET 的 托管 机 制 》 


其 内 核实 现 。C++ 在 字符 串 处 理 方面 同村 
提供 了 两 种 不 同 的 字符 串 类 3 
指针 的 不 同 封装 形式 而 
方面 作 了 不 少 探 索 。 很 少 有 一 个 现代 编译 器 是 不 文 


三 | 
全 4 


俘 更 


能 更 多 取决 于 用 户 的 编程 技巧 与 经 验 。 


可 


能 都 是 出 自 天 才 设计 
主要 指 的 是 逻辑 、 物 


师 


这 里 


| 


串 类 型 ， 完 其 本 质 仍然 是 字符 
泛 的 应 用 ， 软 、 硬 件 领 域 都 在 字符 串 处 到 
持 字 符 串 类 型 
区 别 的 。 

字符 串 类 型 
基本 类 型 ， 它 的 语义 动作 与 普通 的 整 型 、 
析 。 


下 面 ， 简 单 讨 论 一 下 Neo Pascal 


万代 


字符 


也 非常 类 似 ， 用 户 可 以 方便 地 应 
也 是 比较 出 


色 的 ， 基 于 Windows 平台 的 


| 


jy 


o 


结 
j 字 符 串 而 不 必 过 多 关注 
VC++ 编 译 


型 ， 即 MFC 的 CString 和 STL 的 string。 不 论 是 何 种 字符 
由 此 可 见 ， 


IC 


3 


串 类 型 已 经 得 到 广 


的 ， 故 笔者 在 Neo Pascal 中 增加 了 对 字符 串 类 型 的 支持 ， 这 与 标准 Pascal 是 有 


声明 的 语义 处 理 是 非常 简单 的 ， 从 文法 上 来 看 ， 字 符 串 


类 型 实际 上 就 是 一 个 


串 类 型 的 内 核实 现 。 
人 字符 指针 ， 这 与 Delphi 的 string 类 型 是 有 区 别 的 。 笔 者 这 样 设计 的 主要 原因 是 为 了 
兼容 Windows 的 标准 API 函数 。 由 于 Windows 大 部 分 API 接口 主要 兼容 C 语言 ， 所 以 其 
API 的 参数 都 是 以 字符 指针 类 型 替代 字符 串 类 型 的 。 像 Delphi 的 string 


Neo Pascal 字符 


实 型 无 异 。 读 者 可 以 参考 基本 类 型 声明 的 相关 分 


Ae 


串 类 型 的 内 核 


类 型 等 


类 型 等 是 不 符合 这 一 


标准 的 ， 所 以 在 调用 API 时 ， 不 得 不 进行 一 些 类 型 转换 操作 。 为 了 避免 这 些 麻 烦 ， 笔 者 并 没 


有 采 


类 型 ， 只 是 在 


串 类 型 。 但 是 ， 


已 经 被 直接 

操作 时 ， 

没有 中 止 对 字符 襄 的 和 

信 未 来 计算 机 科学 在 字符 
7. 用 户 自 定义 类 型 


字符 串 处 


型 ， 对 于 


| 入 到 CPU 的 指令 集 
其 处 理 效 率 仍然 不 尽 如 人 意 ， 尤 其 是 字符 串 连 接 、 子 串 检 索 等 。 计 香 
究 与 探索 ， 当 然 ， 并 不 仅仅 局 限于 软件 
串 处 理 领 域 一 定 会 有 所 突破 的 。 


> 廊 生 D 


中 ， 对 于 字符 虽 


上 
特 


Delphi string 的 实现 方案 。 实 际 上 ，Neo Pascal 的 string 更 像 是 Delphi 语言 的 PChar 
基础 上 增加 了 一 些 字 符 串 运算 操作 而 已 。 

不 论 是 哪 种 内 核实 现 ， 在 不 考虑 效率 的 情况 下 ， 编 译 器 已 经 完 
装 成 一 个 使 用 极其 方便 的 基本 类 
里 始终 没有 走出 字符 指 钊 


将 


字符 串 类 型 封 


各 
让 月 已 


户 而 言 ， 可 以 像 处 理 普通 数值 类 型 一 样 处 理 字符 
的 影子 。 即 便 是 今天 ， 某 些 字符 串 的 处 理 


的 支持 仍然 不 够 完美 ， 在 大 量 涉 及 字符 串 


机 科学 也 始终 
、 算 法 领域 。 因 此 ， 有 理由 相 


语义 处 理 动作 。 现 在 讨论 类 型 


前 面 ， 笔 者 花费 了 大 量 的 篇 幅 逐 一 介绍 了 各 种 类 型 声明 的 
声明 部 分 的 最 后 一 个 话题 一 用户 自 定义 类 型 。 这 种 声明 形式 是 常见 的 ， 例 如 
【声明 4-19】 
TYPE 
A=CHAR; 
B=SET OF A; 


B 是 一 个 集合 类 型 ， 


中 且 


| 认 


明 时 ， 必 须 将 其 类 型 结 点 的 m_iLink 属 


链 。 不 过 ， 处 理 这 
是 声明 右 部 是 匿名 


声明 
类 型 的 情 
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而 该 集合 类 型 的 基 类 型 是 
生 设 为 A 类 型 信息 表 项 的 位 序号 ， 以 构成 B 的 类 型 
多 式 的 语义 动作 与 之 前 讨论 的 是 不 同 的 。 此 前 ， 编 译 器 更 多 关心 的 


况 ， 即 声明 右 部 是 一 个 具体 类 型 声 


男 


个 用 户 自 定 义 类 型 A。 在 分 析 B 的 声 


明 ， 而 不 是 一 个 现 已 存在 的 用 
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户 自 定义 类 型 名 。 在 处 理 匿名 类 型 时 ， 构 造 类 型 链 的 工作 通常 会 变 得 比较 复杂 。 主 要 原因 就 


是 编译 器 无 法 预知 匿名 类 型 的 嵌 套 层次 ， 分 析 过 程 是 递归 向 下 进行 的 。 虽 然 从 表面 上 来 看 ， 
语义 分 析 器 并 不 存在 真正 的 递归 调用 ， 它 只 不 过 是 利用 栈 模拟 递归 的 一 种 实现 方式 而 已 ， 其 
本 质 还 是 递归 的 思想 。 与 匿名 类 型 的 处 理 相 比 ， 处 理 声 明 右 部 是 用 户 自 定义 类 型 名 字 的 情况 
就 容易 得 多 了 ， 其 过 程 可 能 更 多 涉及 的 是 类 型 信息 的 检索 。 
在 声明 4-19 中 ， 分 析 B 类 型 声明 自 


过 程 如 下 : 当 分 析 到 B 的 基 类 型 是 A 时 ， 便 检索 符号 


< 个 


表 ， 如 果 A 是 合法 的 类 型 名 字 ， 则 将 两 者 构成 类 型 链 ， 否 则 报错 《指针 类 型 声明 除外 ) 。 这 种 


语义 动作 非常 简单 ， 并 不 需要 理会 任何 因 模 拟 递归 而 设置 的 临时 栈 结构 。 下 面 ， 就 来 看 看 用 
户 自 定义 声明 形式 的 文法 : 
【文法 4-12】 


现 。 


一 ”015 标识 符 023 010 


其 中 semantic015、semantic010 己 作 分 析 ， 这 里 ， 主 要 关注 semantic023 的 相关 源 代码 实 


程序 4-32 semantic.cpp 


相关 文法 : 


一 ”015 标识 符 023 010 


bool semantic023() 


{ 


string szTmp=TokenList.at(iListPos-1).m_ szContent; 
int i=SymbolTbl.SearchTypeInfoTbl(SymbolTbl.ProcStack.top(),szTmp); 
if (==-1) 


i=SymbolTbl.SearchTypeInfoTbl(0,szTmp); 


ifGl=-1 


i1f iTypeFlag.top()==2) 
{ 
int j=1; 
string szTmp!l; 
while (SymbolTbl.TypeInfoTbl.at().m eDataType==StoreType::T_USER) 
{ 
if (SymbolTbl.TypeInfoTbl.at(j).m iLink==-1) 
{ 


EmitError(" 系 统 分 析出 错 ",TokenList.at(iListPos-1)); 
return false; 
} 
szTmpl=SymbolTbl.TypeInfoTbl.at(SymbolTbl. 
TypeInfoTbl.atyj).m iLink).m szName; 
j=SymbolTbl.SearchTypeInfoTbl(SymbolTbl.ProcStack.top(),szTmp1); 
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BS R i 
罗 。 ”编译 器 设计 
Se 


之 路 


26 if (SymbolTbl.TypeInfoTbl.at(j).m eBaseType==StoreType::T _ BOOLEAN || 
27 SymbolTbl.TypeInfoTbl.at(j).m eBaseType==StoreType::T_BYTE || 
28 SymbolTbl.TypeInfoTbl.at(j).m eBaseType==StoreType::T CHAR || 
29 SymbolTbl.TypeInfoTbl.at(j).m eBaseType==StoreType::T_SHORTINT || 
30 SymbolTbl.TypeInfoTbl.at(j).m eBaseType==StoreType::T_ SMALLINT || 
31 SymbolTbl.TypeInfoTbl.at(j).m _eDataType==StoreType::T_ENUM) 
S22 { 

33 SymbolTbl.TypeInfoTbl.at(iTypePos.topO).m_iLink=i; 

34 return true; 

3 } 

36 else 

B39 { 

38 EmitError(" 集 合 类 型 的 基 类 型 不 正确 ",TokenList.at(iListPos-1)); 
39 return false; 

40 } 

外 

42 } 

43 SymbolTbl.TypeInfoTbl.at(iTypePos.topO)).m iLink=i; 

44 SymbolTbl.TypelInfoTbl.at(iTypePos.top()).m _eDataType=StoreType::T_USER; 

45 return true; 

46 } 

47 else 

48 { 

49 EmitError(szTmp.append(" 类 型 未 定义 或 定义 不 完整 "),TokenList.at(iListPos-1)); 
50 return false; 

Sl } 

52 return true; 

有 } 


第 3 行 : 获得 用 户 自 定义 类 型 的 名 字 。 用 户 自 定义 类 型 的 名 字 可 以 直接 从 单词 流 中 获得 。 


第 4 一 9 行 : 


两 次 检索 类 型 信息 表 ， 判 断 该 用 户 自 定义 类 型 的 名 字 是 否 合法 。 程 序 设计 


语言 关于 符号 的 可 见 域 、 作 用 域 都 有 严格 的 规定 ， 而 且 有 时 可 能 是 比较 复杂 的 。 例 如 ，C 语 
言 允 许 声明 代码 块 级 的 变量 ， 而 标准 Pascal 允许 过 程 风 套 声明 ， 这 些 情况 将 使 可 见 域 、 作 用 
域 的 分 析 变 得 复杂 。 由 于 Neo Pascal 不 支持 过 程 嵌 套 声明 ， 所 以 符号 的 可 见 域 、 作 用 域 问 题 


就 变 得 相对 简单 。 


第 11 行 : 这 是 一 个 重要 的 标志 判断 。 处 理 集合 类 型 声明 时 ， 由 于 集合 类 型 的 基 类 型 是 


一 个 用 户 自 定义 类 型 ， 所 以 编译 器 需要 对 其 作 一 定 的 合法 性 判断 。 例 如 : 


【声明 4-20】 
TYPE 


根据 Pascal 


A=ARRAY [1..10] OF INTEGER:; 
B=SET OF A; 


语言 的 规定 ， 这 样 的 声明 也 是 不 正确 的 。 编 译 器 并 不 能 因为 声明 形式 的 改 


变 ， 而 忽略 合法 和 
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FE 检 查 。 
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第 13 一 24 行 : 获得 基 类 型 的 实际 类 型 〈 非 用 户 自 定义 类 型 ) 结 点 。 任 何 用 户 自 定义 类 


型 最 终 还 将 链接 到 实际 类 型 结 点 。 这 个 循环 的 目的 就 是 过 滤 所 有 用 户 自 定义 


接 获 得 实际 类 型 的 结 点 ， 便 于 后 续 合 法 性 判断 。 


第 26 一 40 行 : 判定 集合 类 型 的 基 类 型 是 否 合 


法 ， 若 合法 则 构造 类 型 链 ， 


第 43、44 行 : 处 理 其 他 引用 用 户 自 定义 类 型 的 声明 ， 即 生成 类 型 


链 。 


应 该 注意 的 是 ， 这 个 语义 子 程序 并 不 适用 于 指针 类 型 基 类 型 的 处 理 ， 根 
例 程 ， 指 针 类 型 基 类 型 的 语义 处 理 通常 有 一 定 的 特殊 性 ， 即 基 类 型 名 字 的 合 


断 的 。 
8. 更 多 话题 


圳 点 ， 构 造 类 


类 型 的 结 点 ， 直 


否则 报错 。 


胖 


据 前 面 所 分 析 的 
法 性 是 待 事后 判 


至 此 ， 除 了 函数 类 型 之 外 ， 笔 者 已 经 详细 介绍 了 Neo Pascal 各 种 类 型 的 


声明 形式 及 其 语 


义 处 理 动 作 。 在 阅读 源 代码 的 过 程 中 ， 读 者 难免 会 感到 有 点 疑惑 ， 这 也 并 不 足 为 奇 。 类 型 系 


统 是 高 级 程序 设计 语言 有 别 于 低级 程序 设计 语言 的 如 


EE 要 标志 之 一 ， 因 此 ， 它 


对 高 级 程序 设计 


语言 的 发 展 有 着 极其 深远 的 影响 。 对 于 有 志 于 学 习 程 序 设计 语言 及 编译 技术 的 读者 而 言 ， 类 


型 系统 还 是 值得 深入 研究 的 。 


学 习 本 小 节 的 关键 在 于 理解 类 型 链 的 概念 及 其 构造 方法 。 类 型 链 并 不 是 
有 的 产物 ， 也 不 是 笔者 赁 空想 象 出 来 的 。 类 型 链 是 一 种 比较 通用 的 类 型 描述 方法 ， 得 到 了 编 


译 器 设计 者 的 普 裔 认可 。 当 然 ， 不 同 编译 器 的 具体 实现 可 和 
念 与 设计 思想 对 于 学 习 分 析 其 他 编译 器 是 有 一 定 帮助 的 。 实 际 上 ， 从 访问 效率 及 存储 的 角度 


而 言 ，Neo Pascal 的 类 型 链 、 符 号 表 的 设计 并 不 完美 。 例 如 ， 进 一 步 可 以 为 


Neo Pascal 所 特 


E 存 在 一 定 的 差异 


索引 ， 那 样 将 大 大 提高 检索 的 效率 。 有 兴趣 的 读者 完全 可 以 自行 对 符号 表 结 


修改 ， 实 现 这 种 索引 机 制 。 


还 需 指出 一 点 ， 本 书 所 讨论 的 类 型 仅仅 是 类 型 系统 的 
的 类 型 系统 与 计算 机 科学 中 的 类 型 理论 是 有 一 定 


区 别 的 。 类 型 理论 研究 是 程 


具体 实现 而 已 。 实 


， 但 是 理解 其 概 


符号 表 设 计 一 个 


构 及 其 操作 稍 加 


际 上 ， 这 里 讨论 


的 一 个 重要 课题 ， 它 侧重 于 应 用 数学 的 方法 从 


| 象 层次 上 


现 。 由 于 类 型 理论 已 经 超出 了 本 书 讨 论 的 范围 ， 


因此 ， 不 


深入 讨论 ， 笔 者 


研究 类 型 系统 的 设计 、 推 理 与 实 


序 设计 语言 领域 


E 荐 两 部 著作 供 


读者 学 习 。 在 类 型 理论 领域 ，Benjamin C.， Pierce 撰写 的 《Types and Programming 


Languages》 和 《Advanced Topics in Types and Programming Languages》 是 
前 者 有 中 文 译 本 《类 型 与 程序 设计 语言 》， 而 后 者 


以 参考 阅读 。 


4.3.7 变量 声明 部 分 


公 


认 的 经 典 著作 ， 


目前 暂时 没有 中 文 译本 。 有 兴趣 的 读者 可 


Pascal 的 变量 是 相对 比较 简单 的 ， 仅 支持 全 局 变量 和 局 部 变量 两 类 。Pascal 不 允许 用 户 


声明 块 内 变量 (例如 ，C 语言 中 可 以 将 变量 声明 置 于 某 


于 大 括号 所 示 的 程序 块 内 ) 。 虽 然 块 内 变量 的 优越 性 显而易见 ， 但 是 标准 Pascal 并 不 支持 ， 因 


此 可 以 忽略 。 
有 了 先前 的 基础 ， 变 量 声明 部 分 的 语义 处 


看 ， 不 难 发 现 ， 变 量 信息 中 需要 填写 的 属性 并 不 多 (一 


对 大 括号 内 ， 变 量 的 生存 期 则 仪 限 


理 将 是 比较 简单 的 。 从 变量 信息 表 的 结构 来 


明 的 变量 而 言 ，m_eBank、m bRef 两 个 属 改 


tk 只 有 6 个 )。 实 际 上 ， 对 于 用 户 声 


的 取 值 是 固定 不 变 的 ， 总 是 “VAR ”和 
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“false”， 因 为 这 两 个 属性 主要 适用 于 一 些 形 参 变量 或 临时 变量 。 而 m_iMemoryAlloc 也 是 存 
储 分 配 相 关 的 属性 ， 因 此 也 不 必 考虑 。 故 需要 补充 填写 的 属性 只 有 3 个 。 下 面 先 介绍 变量 声 
明 部 分 相关 的 文法 及 其 主要 的 语义 动作 。 


【文法 4-13】 


变量 声明 部 分 一 ”var 变量 定义 ; 变量 定义 列表 
变量 定义 列表 一 变量 定义 ; 变量 定义 列表 | & 
变量 定义 一 ”013 标识 符 列 表 040 : 类 型 


根据 前 面 的 经 验 ， 很 容易 得 到 以 下 结论 : 变量 声明 部 分 的 主要 语义 动作 必定 存在 于 非 终 
结 符 “ 标 识 符 列表 ”相关 的 产生 式 中 ， 而 semantic013 、semantic040 的 主要 工作 就 是 标志 栈 
的 管理 。 下 面 先 来 看 看 semantic013、semantic040 的 源 代 码 。 


程序 4-33 semantic.cpp 
相关 文法 : 
变量 定义 一 ”013 标识 符 列 表 040 : 类 型 


1 bool semantic013() 

2 上 | 

3 iIdListFlag.push(6); // 将 “6” 压 入 iIdListFlag 栈 
4 return true; 

Sl } 


第 3 行将 “6” 压 入 iListFlag 栈 ， 便 于 推导 “标识 符 列表 ”时 进行 相关 语义 判断 。 


程序 4-34 semantic.cpp 
相关 文法 : 
变量 定义 一 013 标识 符 列 表 040 : 类 型 


1 bool semantic040() 
2 
3 TypeInfo Tmp; 
4 Tmp.m szName=" noname"; 
5 Tmp.m szName.append(GetSerialld()); 
6 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 
也 Tmp.m iLink=-1; 
8 SymbolTbl.TypeInfoTbl.push_ back(Tmp); 
加 iTypePos.push(SymbolTbl.TypeInfoTbl.size()-1); 
10 idListFlag.pop(); 
11 return true; 
9 } 


第 4、5 行 : 设置 临时 类 型 信息 表 项 的 m_szName 属性 。 实 际 上 ， 变 量 声明 中 的 类 型 分 
为 两 种 情况 : 非 匿 名 类 型 与 匿名 类 型 。 所 谓 非 匿名 类 型 ， 就 是 指 变量 的 类 型 是 一 个 用 户 自 定 
义 类 型 ， 例 如 : 


中 
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【声明 4-21 】 
TYPE 
AA=ARRAY [1..10] OF INTEGER:; 
VAR 
A,B:AA:; 

AA 并 不 是 Pascal 的 标准 类 型 ， 而 是 一 个 用 户 自 定 义 类 型 的 名 字 。 除 了 非 匿 名 类 型 之 
外 ， 其 他 的 形式 都 可 以 看 作 匿 名 类 型 。 当 变量 声明 中 的 “类 型 ”是 一 个 匿名 类 型 时 ， 其 语义 
动作 非常 简单 ， 只 需 建立 一 个 类 型 结 点 供 后 续 “ 类 型 ”相关 的 语义 子 程序 填写 信息 即 可 。 对 
于 非 匿 名 类 型 而 言 ， 其 语义 动作 就 稍 有 不 同 。 根 据 符号 表 及 类 型 链 的 设计 ， 比 较 好 的 处 理 方 
式 是 直接 将 变量 信息 表 项 的 m_iTypeLink 指向 该 用 户 自 定义 类 型 的 类 型 链 的 首 结 点 。 由 于 这 
两 种 处 理 方式 存在 一 定 的 差异 ， 可 能 给 语义 子 程序 的 设计 带 来 小 小 的 不 便 ， 为 了 便于 设计 与 
编码 ， 笔 者 将 两 者 的 处 理 方式 进行 了 统一 ， 即 都 采用 前 者 的 处 理 方案 。 这 样 的 改变 也 是 有 代 
价 的 ， 就 是 会 造成 非 芽 名 类 型 的 变量 描述 存在 一 个 了 郊 余 的 类 型 结 点 ， 不 过 ， 这 丝毫 不 会 给 编 
译 器 分 析 源 程序 带 来 任何 障碍 。 当 然 ， 通 过 修改 设计 方案 完全 可 以 避免 此 事 的 发 生 ， 从 而 使 
过 比较 完美 ， 但 是 程序 设计 的 复杂 度 却 可 能 有 所 增加 ， 效 率 也 会 降低 。 

第 7 行 : m_iLink 属性 初始 化 为 -1， 而 其 实际 值 将 由 类 型 声明 相关 的 语义 子 程序 来 填写 。 

第 9 行 : 设置 iTypePos 栈 ， 即 当前 类 型 结 点 ， 以 便 后 续 “ 类 型 ”相关 的 语义 子 程序 处 理 。 

下 面 ， 再 来 看 看 semantic012 是 如 何 生成 变量 信息 表 项 的 。 


程序 4-35 semantic.cpp 
相关 文法 : 
标识 符 列表 ”一 标识 符 012 标识 符 列表 1 
标识 符 列表 1 一 ,标识 符 012 标识 符 列表 1 
1 boolsemantic012() 


2 1{ 

Bl OC...... 

4 if (IdListFlag.top()==6) 

5 { 

6 VarInfo Tmp; 

了 Tmp.m_eRank=VarInfo::VAR; 

8 Tmp.m iProcIndex=SymbolTbl.ProcStack.top(); 

9 Tmp.m iTypeLink=SymbolTbl.TypelInfoTbl.size(); 
10 Tmp.m szName=TokenList.at(iListPos-1).m_ szContent; 
11 if (SymbolTbl.SearchTypeInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName,false)——-1 && 
12 SymbolTbl.SearchConstInfoTbl(SymbolTbl.ProcStack.topO,Tmp.m szName)—-1 && 
13 SymbolTbl.SearchLabelInfoTbl(SymbolTbl.ProcStack.topO,Tmp.m szName)—-1 && 
14 SymbolTblSearchEnumInfoTbl(SymbolTbl.ProcStacktop0,Imp.m_ szName)—-1 && 
15 SymbolTbl.SearchVarInfoTbl(SymbolTbl.ProcStack.top(),Tmp.m szName)——-1 && 
16 SymbolTbl.SearchProcInfoTbl(Tmp.m szName)==-1) 
17 { 
18 SymbolTbl.VarInfoTbl.push_back(Tmp); 
19 return true; 
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B ER i 
辐 、 编译 器 设计 之 路 
向 四 


第 7 行 : 


属 
第 9 行 : 


第 10 行 : 


第 11 一 25 


4.3.8 


FE 设 为 VAR 即 可 。 


尾 追 加 一 个 类 型 信息 表 项 ， 因 此 这 是 


EmitEror(Tmp.m szName.append(" 标 识 符 名 


return false; 


器 


己 经 存在 "),TokenList.at(iListPos-1)); 


吗 


设置 m eRank 属 性 。 这 里 ， 


pA 


昌 户 变量 声明 的 情况 ， 故 统一 将 m_eRank 


二 


时 性 。 由 于 无 论 是 匿名 


霹 
1 内 时 


ANT 


设置 iTypeLink 


> 
获取 变量 名 字 。 
行 ， 检查 变 量 名 字 是 否 有 效 。 必 


过 程 、 画 数 声明 部 分 


各 iTypeLink 指向 表 


民 据 实际 情 


类 型 


非 


匿名 类 型 ，semantic040 都 会 
尾 信息 项 即 可 。 


还 是 


况 ， 依 次 检索 符号 表 即 可 。 


过 程 、 也 
的 函数 。 由 于 


Pascal 没有 类 似 于 C 语言 的 void 类 型 ， 


别 于 普通 的 函 


数 。 实 际 上 ， 


数 也 是 程序 设计 语言 最 基本 的 语法 元 素 之 一 。 而 Pascal 中 的 过 程 


从 严格 意义 上 来 说 ， 过 程 


就 是 指 无 返回 值 
因此 ，Wirth 教授 提出 了 过 程 的 概念 以 区 
与 函数 还 是 存在 一 定 差别 的 。 例 如 ， 在 


Pascal 中 ， 过 程 体 内 严格 禁止 存在 对 RESULT 的 赋值 ， 而 函数 体内 却 必须 存在 RESULT 的 赋 


值 。 这 些 语义 
此 ， 很 多 人 仍 


在 C 语言 中 并 不 是 特别 强调 的 ，C 语言 
过 程 的 作用 ， 认 为 它 的 存 


为 一 种 特殊 函 


然 质疑 Pascal 
。 确 实 ， 拥 有 类 似 于 C 语言 的 函数 机 制 


数 的 存在 价值 3 


机 科学 中 ， 


授 的 设计 思想 ， 同 时 为 了 尽 可 能 兼容 标准 Pascal， 故 仍 保留 过 程 机 种 
过 程 与 函数 的 概念 并 没有 非常 明确 的 界限 。 许 多 著作 经 常 
5， 在 后 续 章 节 中 ， 在 没有 明确 说 明 的 情况 下 ， 过 程 与 函 


程序 。 因 出 
这 上 


递 。 其 中 引 月 
的 。 
递 (在 C++ 


值 。 而 使 用 引 


读者 最 熟知 的 “ 引 


于 该 参数 是 一 个 指针 ， 程 序 员 在 使 


有 ， 笔 者 从 三 个 方面 对 Pascal 的 过 程 、 函 数 声明 作 
相关 语义 子 程序 的 实现 。 
(1) 参数 传递 方式 。 习 惯 上 ， 参 数 传递 方式 可 以 分 为 三 种 : 值 传递 、 址 传递 、 引 月 
日 传递 可 以 视 为 址 传递 的 一 种 特殊 实现 ， 
C++ 实现 的 ， 在 C++ 中 ， 引 用 传递 与 传统 的 址 传 


传递 ”应 该 就 是 


不 大 。 不 过 ， 从 设计 编译 器 的 角度 而 言 ， 笔 者 非常 尊重 Wirth 教 


对 于 retum 语句 的 限制 比较 灵活 。 即 使 如 
在 并 没有 太 大 的 意义 。 当 然 ， 笔 者 也 并 不 
已 经 足以 满足 相关 应 用 的 需求 了 ， 过 程 作 


需要 指出 的 是 ， 在 计 和 
使 用 “过 程 ” 泛 指 一 切 子 
数 是 不 作 区 分 的 。 
单 的 回顾 ， 以 便 进 


恒 。 


Ar 
一 个 简 


步 讨论 


日 传 
日 承 


因此 ， 可 以 认为 其 与 址 传递 是 一 脉 本 


P 可 以 通过 传递 指针 实现 ) 的 j 
| 该 参数 时 9 必 


| 用 传递 方式 时 ， 程 序 员 


形式 还 是 存在 一 定 差异 的 。 使 用 址 传递 方式 时 ，1 


不 必 考 虑 许多 指针 运算 方面 


须 通过 指针 运算 才能 获取 实际 所 需 参数 
的 问题 ， 可 以 像 使 用 实 参 


样 ， 直 接 访问 形 参 ， 而 不 必 在意 其 指针 的 本 质 。 对 于 程序 员 而 言 ， 引 用 传递 就 像 是 直接 将 实 


参 的 名 字 传 递 给 了 形 参 ， 可 以 像 引 


j 实 参 一 样 引 用 


多 参 ， 所 以 引用 传递 亦 称 为 名 字 传 递 。 


Pascal、C++、Java 都 支持 两 种 参数 传递 方式 ， 即 值 传递 、 引 用 传递 。 而 C 语言 仅 文 持 值 传 
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递 。 最 后 ， 笔 者 需 指出 一 点 ， 在 程序 设计 语言 领域 ， 关 了 
固然 是 大 多 数 ， 但 反对 者 的 理 
程序 员 忽 略 调用 函数 可 能 产生 的 副作用 。C# 语 


议 的 。 支 持 者 


符号 表 系 统 | 第 4 学 


是 定 争 


-是 存在 


引 


传递 方式 实际 


已 


由 也 并 非 无 中 生 有 ， 他 们 认为 引 
中 加 入 了 out 方式 的 参数 。 


能 会 使 


有 会 


很 细小 


传递 可 
除了 一 些 


的 差别 之 外 ，out 方式 的 内 核 与 引用 方式 是 基本 类 似 的 。 


田 


(2) 扩展 信息 
助 信 息 ， 这 些 信息 大 多 


与 


述 。 除 了 参数 、 返 回 值 类 型 等 信息 外 ， 实 际 上 ， 过 程 、 


函数 声明 中 还 可 


能 包含 一 些 其 他 辅 
函数 之 外 ， 还 有 两 类 函数 可 供用 户 调 
的 预定 义 库 函 数 ， 


JJ 9 


即 库 函 数 、 


部 函数 相关 。 


事实 上 ， 除 了 用 户 自 定义 过 程 、 
系统 函数 。 库 函数 既 可 以 是 编译 器 提供 


也 可 以 是 用 户 编写 生成 的 自 定义 库 


提供 的 一 些 系 统 调 
不 需要 重新 编译 生成 。 
数 。 注 意 ， 

外 部 函数 的 他 


CL 势 非常 明显 ， 本 书 不 可 能 一 一 列举 ， 


或 系统 接口 函数 。 库 函数 和 系统 
由 于 这 些 函 数 都 是 独立 于 本 项 目 而 存在 的 ， 因 
关于 内 部 、 外 部 函数 的 分 类 标准 并 不 统 


函数 。 而 系统 函数 主要 指 的 是 操作 系统 
函数 都 是 以 二 进 制 形式 存在 的 ， 它 们 并 
此 通常 将 其 称 


的 说 法 仅 限 


口 台 


为 外 部 函 
， 这 上 于 本 书 。 当 然 ， 使 用 
简单 提 几 点 。 例 


已 人 
从 用 旧 


能 扩展 、 实 现 跨 语言 共享 等 。 而 这 里 提 到 的 扩展 信息 主要 是 


如 ， 抽 象 与 封装 、 功 
指 那些 与 外 部 函数 相关 的 信息 ， 


例如 ， 外 部 函数 的 来 源 、 调 
外 部 函 


方式 等 信息 。 


数 的 来 源 一 般 就 是 指 外 部 函数 所 属 的 库 文件 名 及 路 径 等 信息 。 


下 下 


> 


就 针对 这 些 信息 作 简单 介绍 。 
外 部 函数 是 以 库 文 


个 


件 形式 组 织 的 ， 
文件 独 是 如 此 。 从 理论 来 说 ， 


j 户 在 本 项 


库 文件 通常 可 以 包含 多 个 乡 


:部 


图 数 ， 例 如 ， 读 者 熟知 的 DLL 文件 、Lib 


目 中 调 


的 外 部 函数 所 属 库 文 件 的 准确 


路 笃 ， 以 便 编译 器 


] 某 一 外 部 函数 时 ， 必 须 告知 编译 器 所 调用 
生成 正确 的 目标 程序 。 不 过 ， 这 不 是 绝对 


的 。 在 实际 情况 下 ， 来 源 仅仅 指 的 就 是 库 文 件 名 字 而 已 ， 而 库 文 件 路 径 信息 一 般 是 预定 义 


的 ， 由 编译 器 或 操作 系统 自动 检索 识别 。 


例如 ， 在 Windows 中 ，DLL 文件 的 路 径 就 是 由 操 
角 的 检索 顺序 。 虽 然 来 源 信息 并 不 复杂 ， 却 是 非 


作 系 统 自 动 检索 的 ，Windows 定义 了 一 套 明 硬 


党 重要 的 ， 不 正确 的 来 源 信息 会 导致 编 


外 部 函数 的 调用 方式 主要 就 是 讨论 一 个 世 


题 ， 


圣 链接 出 错 ， 甚 至 目标 程序 异常 。 


即 传 参 约定 。 对 于 支持 系统 栈 的 目标 机 器 来 


说 ， 通 常 都 是 借 屿 


于 系统 栈 传 参 的 ， 调 用 点 通常 将 参数 逐 


压 入 系统 栈 ， 被 调 函数 从 系统 栈 内 


获取 参数 信息 。 传 参 约定 的 目的 就 是 便于 访问 与 实现 外 音 
接口 是 非常 必要 的 。 实 际 上 ， 函 数 调 用 是 一 次 协作 的 过 程 ,i 
获取 实 参 。 对 于 调用 本 项 目的 
尺码 的 ， 编 译 器 设计 者 完全 可 以 定义 一 种 内 部 的 传 参 约 


样 的 传 参 约定 才能 保证 被 调 函 数 正确 
被 调 函数 都 是 由 同一 个 编译 器 生成 目标 
定 供 双 方 遵 可 ? 


唯一 的 目标 只 要 保证 正确 传 参 即 可 。 不 


就 无 法 作 类 似 的 内 部 约定 了 ， 因 为 
何 改变 。 再 者 ，1 


部 函 


NS 


数 已 经 是 以 二 进 制 代码 形式 存在 了 ， 不 可 能 对 
ij 写 外 部 函数 的 源 语言 、 所 使 用 的 编译 器 都 是 未 知 的 ， 如 果 传 参 约定 完 


由 语言 及 编译 器 设 


下 


十 者 自 定义 的 ， 那 么 ， 


不 


随意 怕 


bP 函数 ， 为 外 部 函数 提供 一 个 统一 调用 
周 用 点 及 被 调 函数 双方 必须 遵守 同 
函数 、 过 程 ， 由 于 调用 点 与 


过 ， 当 被 调 函数 是 外 部 函数 时 ， 编 译 器 


作 任 


性 将 


秆 导致 外 部 函数 失去 存在 的 价值 。 当 然 ， 


机 科学 家 并 没有 


情况 

译 器 生成 外 部 函数 、j 

的 正确 

fastcall 就 是 最 常 
(1) 实 参 压 栈 的 | 

特点 就 是 先进 


PBA 人 


周 | 


质 序 。 实 参 压 栈 的 顺 


后 出 ， 如 果 调 用 点 以 顺序 方式 


新颖 的 内 部 传 参 约 定 的 存在 意义 ， 也 不 限制 其 使 用 范围 。 
下 ， 早 期 的 一 些 语 言及 编译 器 设计 者 仅 对 外 部 函数 的 传 参 方式 作 了 一 些 约定 ， 规 定 任 何 编 
了 外 部 函数 相关 目标 代码 时 ， 必 须 遵守 相关 的 约定 ， 和 否则 无 法 保证 调用 
性 。 但 这 些 约定 并 不 影响 各 种 内 部 函数 的 传 参 方式 。 例 如 ， 读 者 熟悉 的 stdcall、cdecl、 
见 的 传 参 约定 。 下 面 ， 笔 者 就 来 谈 谈 传 参 方式 约定 的 相关 组 成 。 


在 这 种 


各 实 


序 直 接 关 系 到 被 调 函 数 访问 的 正确 性 。 栈 式 结构 的 


参 压 栈 ， 则 被 调 函数 将 以 逆序 方式 访问 参 
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B ER i 
罗 、 编译 器 设计 之 路 
ee 


数 。 为 了 便于 被 调 函数 顺序 访问 实 参 ， 通 常 调用 点 是 以 逆序 方式 压 栈 的 。 逆 序 压 栈 得 到 了 绝 


大 多 数 编译 器 的 共识 ， 几 平 不 存在 任何 分 疏 。 
(2) 栈 复位 点 。 试 图 借 


否则 程序 可 能 产生 异常 。 这 上 


由 


助 于 系统 栈 传 参 ， 就 必须 保证 函数 调用 前 后 系统 栈 的 情景 一 致 ， 
有 ， 有 个 关键 问题 需 说 明 : 栈 式 传 参 的 过 程 与 普通 的 栈 应 用 可 能 


存在 一 定 的 差别 。 虽 然 传 参 方式 的 通常 理解 是 一 个 实 参 赋 值 给 形 参 的 过 程 ， 但 事实 却 并 非 如 
此 。 根 据 栈 式 传 参 方式 的 观点 ， 调 用 点 将 实 参 压 栈 后 ， 被 调 函 数 直 接 通 过 计算 栈 基 址 偏 移 访 
问 参 数 ， 并 不 需要 将 参数 出 栈 ， 或 作 其 他 任何 操作 。 因 此 ， 从 理论 上 而 言 ， 直 至 被 调 函 数 返 


数 返回 异常 。 故 目标 程序 就 不 得 不 将 原来 因 函 数 调用 需要 而 压 栈 的 参数 弹出 ， 即 栈 复位 。 栈 


回 并 不 会 改变 系统 栈 的 状况 ， 也 就 是 说 ， 调 用 函数 时 压 入 的 参数 仍 存在 于 系统 栈 内 。 如 此 便 
使 得 函数 调用 前 后 的 系统 栈 的 状况 发 生 了 变化 ， 这 是 谁 都 不 愿意 看 到 的 ， 因 为 这 可 能 导致 函 


式 传 参 方式 需要 做 栈 复位 的 工作 是 得 到 普遍 共识 的 ， 并 不 存在 任何 异议 。 关 键 问题 是 由 谁 来 
完成 栈 复 位 工作 。 实 践 证 明 ， 调 用 点 及 被 调 函数 都 是 可 以 完成 这 一 工作 的 ， 某 些 观 点 认为 应 
由 前 者 完成 ， 而 另 一 些 则 支持 由 后 者 完成 。 例 如 ，WINAPTI 的 标准 调用 方式 stdcall 规定 栈 复 


位 由 被 调 函 数 完成 。 而 C 


个 问题 ， 笔 者 觉得 


不 存在 本 


语言 最 常用 的 调用 方式 cdecl 则 规定 栈 复位 由 调用 点 完成 。 关 于 这 


质 区 别 ， 只 是 实现 方式 不 同 而 已 。 


(3) 各 种 类 型 数据 以 何 种 形式 压 栈 。 高 级 语言 与 汇编 语言 的 一 个 重要 区 别 就 是 丰富 的 数 


据 类 型 ， 如 数组 、 结 构 、 字 
栈 ， 这 是 一 个 值得 商检 的 问题 。 


pz 


等 。 程 序 是 将 这 类 变量 的 首 地 址 压 栈 ， 还 是 将 整个 存储 块 压 


符 上 


至 此 ， 简 单 讨论 了 函数 传 参 问 题 ， 旨 在 说 明 外 部 函数 调用 方式 的 特点 ， 关 于 更 多 的 传 参 


话题 将 在 后 续 章 节 中 详 述 。 关 于 函数 、 过 程 的 符号 表 处 理 的 问题 ， 与 变量 、 常 量 类 似 ， 这 里 


就 不 再 详细 讨论 了 。 


4.4 深入 学 习 


符号 表 与 声明 部 分 的 语义 处 理 一 直 是 编译 器 实现 中 两 个 比较 复杂 的 话题 。 遗 憾 的 是 ， 即 
符号 表 设 计 的 篇 幅 也 非常 有 限 ， 更 多 关注 的 是 符号 表 的 检索 效率 ， 并 没 


使 是 “ 龙 书 ” 关 


于 


有 涉及 符号 表 的 描述 能 力 的 相关 讨论 。 


这 里 ， 笔 者 向 读者 推荐 《高 级 编译 器 设计 与 实现 》( 即 “ 鲸 书 ” 第 3 章 ， 其 中 ， 比 较 详 


细 地 阐述 了 符号 表 设 计 中 的 一 些 高 级 话题 ， 尤 其 是 关于 描述 能 力 方面 的 观点 是 值得 学 习 的 。 


至 于 符号 表 实例 分 析 ， 最 经 典 


哈 希 技术 也 是 符号 表 设计 
析 。 当 然 ， 在 此 之 后 ， 人 们 还 提出 了 许多 优秀 的 哈 希 函 数 设计 观点 。 
1、 计 算 机 程序 设计 艺术 


2、 编 译 原理 


说 明 : 这 本 书 是 算法 设计 的 经 


的 英 过 于 《可 变 目 标 C 编译 器 一 一 设计 与 实现 》 了 。 
的 另 一 个 重要 话题 ，1973 年 ，Knuth 给 出 了 哈 希 方法 的 详细 分 


D.E.Knuth 清华 大 学 出 版 社 


说 明 : 书 中 提 到 了 符号 表 的 结构 设计 问题 ， 并 评价 了 单 表 、 多 表 等 结构 的 优 劣 ， 也 是 国内 教材 中 的 经 典 之 作 。 
3、 高 级 编译 器 设计 与 实现 
说 明 : 这 本 书 被 誉 为 “ 鲸 书 ”， 


4、 可 变 目标 C 编译 器 


5、 算 法 导论 
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设计 与 实现 


说 明 :该 书 所 描述 的 lcc 是 一 个 值得 读者 深入 学 习 的 实例 系统 ， 它 的 很 多 设计 思想 被 广泛 应 用 于 许多 相关 领域 ， 如 操作 系统 等 。 


著作 ，1999 年 被 列 为 20 世纪 12 部 最 佳 学 术 专 著 之 一 。 


其 中 涉及 许多 编译 器 设计 中 的 高 级 话题 ， 当 然 ， 它 最 值得 关注 的 就 是 优化 技术 。 


吕 映 芝 ， 张 素 琴 清华 大 学 出 版 社 


Steven S.Muchnick 机 械 工 业 出 版 社 


Christopher W. Fraser, David.R.Hanson 电子 工业 出 版 社 


T.H.Cormen 机 械 工 业 出 版 社 


说 明 : 这 本 书 是 MIT 数据 结构 与 算法 设计 课程 的 教材 ， 其 经 典 程度 足以 与 《计算 机 程序 设计 艺术 》 媲 美 。 


符号 表 系 统 | 第 4 浊 


4.5 ”实践 与 思 


1. 请 读者 使 用 更 优 的 哈 希 算法 改写 Neo Pascal 的 符号 表 系 统 。 

2. 根据 C 语言 的 特点 ， 试 设计 一 套 完整 的 符号 表 系 统 ， 用 于 描述 C 语言 的 符号 结构 。 

3. 符号 表 的 输入 、 输 出 也 是 非常 重要 的 话题 ， 尤 其 是 在 生成 调试 信息 时 ， 经 常 要 涉及 相 
关 应 用 。 请 读者 设计 一 组 输入 、 输 出 接口 ， 以 便 Neo Pascal 的 符号 表 能 够 以 文件 形式 存储 。 

4. 在 现代 编译 器 中 ， 有 时 把 复数 类 型 视 为 一 个 原子 类 型 ， 试 问 该 如 何 修改 Neo 
Pascal， 以 实现 复数 数据 类 型 ? 

5. 如 果 Neo Pascal 需要 支持 类 似 于 C 语言 的 块 内 变量 声明 ， 那 么 应 该 如 何 修 改 符号 表 
结构 ? 


4.6 大 师 风 采 一 一 John Backus 


John Warner Backus: 美国 计算 机 科学 家 ，Fortran 语言 创始 人 之 一 ，BNF 发 明 者 之 一 。 
1924 年 12 月 3 日 出 生 于 美国 费城 。1943 年 ， 进 入 弗吉尼亚 大 学 主 修 化 学 ， 中 途 和 参军 。 战 后 移 
居 纽 约 ， 对 数学 发 生 了 兴趣 ， 并 进入 了 哥伦比亚 大 学 学 习 数 学 ， 于 1949 年 获 硕士 学 位 。 

1950 年 ，Backus 加 入 IBM 公司 ， 成 为 一 名 程序 员 。 在 IBM 公司 期 间 ，Backus 的 第 一 
个 主要 项 目 是 设计 一 个 用 于 计算 月 球 位 置 的 程序 。 

1953 年 ， 他 开发 了 基于 IBM 计算 机 的 第 一 个 高 级 语言 一 -Speedcoding。1954 年 ， 
Backus 和 他 的 团队 为 [BM 704 定义 与 开发 了 Fortran 语言 ， 这 是 人 类 历史 上 第 一 个 广泛 应 用 
的 高 级 语言 。Fortran 语言 的 诞生 将 程序 编译 技术 正式 推 上 了 历史 的 舞台 。 

20 世纪 50 年 代 后 期 ，Backus 致力 于 设计 Algol 58 和 Algol 60 语言 。 在 此 期 间 ，Backus 
提出 了 著名 的 Backus-Naur 范式 (BNF )， 在 程序 设计 语言 、 形 式 语言 等 研究 领域 中 ， 这 是 
具有 里 程 碑 意义 的 。Backus 也 因此 获得 了 1977 年 的 图 灵 奖 。 

在 此 之 后 ，Backus 开始 关注 函数 式 语 言 的 研究 。 在 他 职业 生涯 的 后 期 ， 主 要 的 研究 项 目 
就 是 FL (Function Level )。 他 提出 的 许多 理论 与 概念 被 后 来 的 J 语言 (1990 年 由 Ken 
Iverson 与 Roger Hui 开发 ) 实现 了 。 

2007 年 3 月 17 日 ，Backus 病逝 于 美国 阿 什 兰 的 家 中 ， 享 年 83 岁 。 
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第 5 章 中 间 表 示 


The initial motive for developing APL was to provide a tool for writing and teaching. 
Although APL has been exploited mostly in commercial programming, T continue to believe that 
its most important use remains to be exploited: as a simple, precise, executable notation for the 


teaching of a wide range of subjects. 


| 5. IR 概述 


5.1.1 IR 的 作用 


中 间 表 示 ， 通 常 称 为 及 〈Intermediate Representation， 简 称 有)， 是 编译 器 设计 中 的 另 
一 个 重要 话题 ， 它 是 编译 器 前 端的 产物 。 在 编译 技术 发 展 历程 中 ，IR 的 提出 具有 里 程 碑 的 意 
义 ， 它 是 划分 编译 器 前 、 后 端的 一 个 重要 标准 。IR 的 应 用 使 得 编译 器 可 以 方便 地 适应 源 语 
言 、 目 标语 言 的 变化 与 扩展 。 在 理想 状态 下 ， 与 源 语 言 相 关 的 变化 只 需 改变 编译 器 的 前 端 ， 
而 与 目标 语言 或 目标 机 相关 的 变化 只 需 修改 编译 器 的 后 端 即 可 。 图 5-1 是 两 种 经 典 编译 器 的 
模型 示意 图 。 


——Kenneth Eugene Iverson 


x86 汇编 


SS LL. 
Pascal MIPS R3000 汇编 


“~ IR 一 x86 汇编 C 一 一 IR ， 
Fortran 一 一 一 一 SPARC 汇编 
BASIC 一 、， a Yo ,, NMCS517 

前 端 后 端 前 端 后 汇编 
a) b) 


5-1 编译 器 前 、 后 端 模型 示意 图 
a) 模型 A b) 模型 B 


模型 A 允许 输入 多 种 不 同 源 语言 编写 的 程序 ， 将 其 翻译 成 同一 目标 代码 。 为 了 便于 源 
语言 的 扩展 ， 通 常 前 端 将 其 编译 生成 一 种 具有 一 定 通 用 意义 的 芒 。 而 后 端 ( 例 如， 优化 、 目 
标 代 码 生成 等 ) 并 不 需要 理会 编译 器 到 底 存 在 几 种 不 同 的 源 语 言 ， 对 于 后 端 而 言 ， 唯 一 的 源 
语言 就 是 了 及 。VS .NET 就 是 基于 这 种 模型 的 编译 器 ， 只 不 过 它 的 后 端 是 .NET Framework 的 
动态 编译 框架 ， 而 前 、 后 端的 接口 就 是 工 。 

模型 B 描述 的 是 一 种 常见 的 编译 器 ， 称 为 “可 变 目 标 编译 器 ” 即 编译 器 的 后 端 可 以 生 
成 不 同 的 目标 代码 。 使 用 这 种 编译 器 的 源 语言 编写 程序 的 优点 在 于 可 以 方便 地 将 同一 个 程序 
移植 到 各 种 目标 机 上 和 运行， 用户 不 必 过 多 关注 各 种 目标 机 体系 结构 的 细节 。 不 过 ， 需 要 指出 
的 是 ， 可 变 目标 编译 器 并 不 是 读者 所 熟悉 的 跨 平台 编译 器 。 可 变 目 标 编译 器 关注 的 是 目标 机 
的 变化 ， 而 不 仅仅 是 操作 平台 的 变化 。 当 然 ， 在 现代 编译 领域 ， 这 种 模型 也 用 于 解决 目标 程 
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序 跨 平台 的 问题 。 

在 实际 应 用 中 ， 还 存在 一 种 更 为 特殊 的 模型 ， 它 可 能 存在 多 种 源 语言 与 目标 语言 。 这 类 
编译 器 的 IR 可 能 更 像 是 一 种 标准 接口 ， 分 别提 供给 前 、 后 端 使 用 。 事 实 上 ， 能 够 完美 实现 
这 一 目标 的 经 典 编译 器 并 不 多 见 ， 可 能 唯 有 GCC 才 当 之 无 愧 ，GCC 支持 C、C++、Java、 
Fortran、Pascal 等 多 种 源 语言 及 i386、MIPS、ARM 等 数 十 种 目标 机 。 

最 后 ， 笔 者 有 必要 指出 ， 在 很 多 情况 下 ， 编 译 器 前 、 后 端 之 间 并 不 存在 非常 明确 的 界 
线 。 尤 其 是 源 语言 的 专业 性 比较 强 时 ， 前 、 后 端的 界线 可 能 是 非常 模糊 的 。 因 为 ， 在 这 种 情 
况 下 ， 编 译 器 设计 者 没有 必要 过 多 考虑 源 语言 、 目 标语 言 的 横向 扩展 ， 当 然 ， 也 没有 必要 为 
此 付出 巨大 的 精力 。 


5.1.2 IIR 设计 及 其 级 别 


一 个 实际 编译 器 的 人 通常 是 由 该 编译 器 设计 者 定义 且 仅 供 该 编译 器 使 用 的 一 种 语言 ， 
对 于 编译 器 的 用 户 及 程序 设计 语言 本 身 都 是 透明 的 。 除 了 一 些 特殊 情况 外 ， 编 译 器 的 代 是 
不 会 公开 的 。 在 笔者 看 来 ， 将 了 及 视 作 一 种 资源 或 者 财富 是 绝 不 为 过 的 。 编 译 器 后 端的 算法 
设计 及 其 性 能 很 大 程度 上 都 是 依赖 于 其 了 及 的 ， 因 此 ， 除 了 一 些 开 源 或 者 早期 实验 室 级 的 编 
译 器 外 ， 很 少 有 商用 编译 器 愿意 公开 其 下 。 

即便 如 此 ， 关 于 IR 设计 可 以 借鉴 的 经 验 还 是 比较 多 的 ， 也 有 一 些 设计 原则 可 以 指导 编 
译 器 设计 者 定义 了 及。 不 少 编译 器 设计 大 师 都 认为 定义 代 是 一 门 艺术 而 不 是 科学 ， 因 为 其 优 
劣 在 很 大 程度 上 是 无 法 使 用 非常 科学 或 精确 的 方法 来 评价 的 。 根 据 对 经 典 编译 器 的 理解 并 结 
合 一 些 大 师 著 作 的 观点 ， 笔 者 总 结 得 到 如 下 几 点 建议 ， 供 读者 参考 。 

(1) 充分 考虑 目标 机 体系 结构 。IR 的 主要 服务 对 象 就 是 编译 器 后 端 ， 因 此 设计 IR 必须 
充分 考虑 目标 机 体系 结构 。 当 然 ， 目 标 机 的 指令 系统 是 其 中 一 个 最 重要 因素 ， 但 并 不 仅仅 局 
限于 此 。 例 如 ， 存 储 结构 、 总 线 结构 、 中 断 系统 等 也 是 比较 重要 的 。 不 过 ， 必 须 指出 一 点 ， 
充分 考虑 目标 机 体系 结构 ， 并 不 等 同 于 过 多 依赖 于 目标 机 体系 结构 。 恰 恰 相 反 ， 通 常 IR 不 
应 该 包含 太 多 目标 机 的 细节 ， 和 否则 移植 性 、 通 用 性 都 会 大 大 降低 。 例 如 ， 有 些 目标 机 的 指令 
系统 不 支持 乘 、 除 法 ， 如 果 因 此 编译 器 的 IR 也 不 包含 乘 、 除 法 操作 ， 笔 者 认为 这 是 完全 没 
有 必要 的 。 再 比如 ， 在 定义 人 民 时 ， 可 以 对 寄存 器 分 配 的 方案 加 以 考虑 ， 但 不 应 该 细 化 到 某 
一 种 目标 机 的 具体 寄存 器 (如 i386 的 EAX~EDX 等 ) 。 简 而 言 之 ， 应 充分 考虑 目标 机 的 共 
性 ， 售 弃 目 标 机 中 过 于 个 性 的 细节 ， 除 非 是 针对 某 一 特定 的 目标 机 而 设计 专用 编译 器 。 

(2) 兼顾 优化 算法 的 需要 。 优 化 技术 是 现代 编译 技术 中 最 为 复杂 的 话题 之 一 ， 优 化 算法 
众多 ， 其 中 一 部 分 优化 算法 是 基于 下 实现 的 ， 即 优化 算法 的 输入 、 输 出 都 将 是 豚 。 然 而 ， 
正 所 谓 众 口 难 调 ， 由 于 各 种 优化 算法 所 面临 的 问题 和 解决 的 方案 都 存在 较 大 的 差异 ， 它 们 对 
于 IR 的 需求 也 不 尽 相 同 。 例 如 ， 有 些 优化 算法 希望 输入 的 及 尽 可 能 高 级 ， 即 比较 接近 于 源 
语言 形式 ， 最 大 程度 上 保留 源 语言 的 特性 。 而 有 些 优化 算法 则 希望 输入 的 下 尽 可 能 低级 ， 
即 更 接近 于 目标 语言 形式 ， 以 便 优 化 过 程 中 更 多 地 考虑 目标 机 的 特性 。 
在 一 些 编译 原理 教材 中 ， 经 常 以 经 典 的 五 个 阶段 为 基础 讨论 编译 技术 。 这 样 可 能 会 给 读 
者 造成 一 个 误区 : 编译 过 程 中 只 存在 一 种 了 及 形式 。 实 际 上 ， 这 种 说 法 通常 是 错误 的 ， 因 为 
个 编译 器 使 用 多 种 IR 的 情况 并 不 罕见 。 设 置 多 种 IR 的 目的 就 是 为 了 更 好 地 适应 各 种 优化 
法 的 需求 。 一 些 商 用 编译 器 为 了 尽 可 能 改善 目标 代码 的 性 能 ， 不 惜 生成 多 遍 人 R 以 适应 各 


府 


/fe 
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辐 、 编译 器 设计 之 路 
[ 


种 算法 的 需要 。 当 然 ， 这 个 过 程 通常 是 串 行 的 ， 以 免 编 译 过 程 对 存储 空间 资源 消耗 过 大 。 


(3) 结构 不 宜 过 于 复杂 ， 应 具有 
都 是 比较 简单 的 ， 如 数组 、 树 、DAG 等 。 这 样 设计 
文件 形式 存储 到 外 存 中 ， 供 其 他 程序 使 


定 灵 活 易 变性 。 根 据 经 验 ， 一 些 经 典 IR 的 逻辑 结构 
的 主要 目的 有 两 个 : 第 一 ， 
]。 人 逻辑 结构 过 于 复杂 可 能 会 给 读 取 、 存 储 增加 难 


IR 经 常会 以 


导致 源 语言 程 


译 优 化 技术 讨 


度 ， 而 且 影 响 处 理 效 率 。 第 二 ，IR 往往 不 是 一 成 不 变 的 ， 随 着 后 端 设计 的 细 化 ， 有 时 IR 会 

有 一 定 变 化 。 通 常 ， 很 难 认 为 这 种 情况 是 由 于 初期 设计 不 周 所 致 ， 毕 竟 编 译 器 设计 的 难度 要 

远 高 于 普通 应 用 系统 。 从 一 些 编译 器 大 师 的 回忆 录 中 不 难 发 现 ， 即 使 是 Turbo Pascal、lcc、 

Delphi 等 经 典 编译 器 也 是 如 此 。 因 此 ， 在 这 种 情况 下 ， 能 做 的 仅 是 使 下 适应 后 端的 需要 。 
(4) 表达 能 力 必须 充分 。 前 面 已 经 讲 过 ， 编 译 过 程 就 是 将 源 语言 程序 等 价 变换 成 目标 语 

言 程序 的 过 程 ， 其 中 最 核心 的 要 点 就 是 “等 价 ”。 如 果 翻 译 过程 导 致 或 者 可 外 

序 与 目标 语言 程序 之 间 存 在 语义 差异 ， 那 么 本 次 编译 过 程 是 失败 的 。 这 也 是 编 

论 的 前 提 ， 任 何 优 化 算法 都 不 能 违背 这 个 原则 ， 否 则 宁可 不 


患 。IR 是 编译 器 后 端的 输入 ， 也 就 是 说 ， 编 译 器 后 端 可 能 已 经 无 法 知晓 源 语言 程序 的 真实 语 

青 况 下 ，IR 应 该 足以 表述 源 语 
否则 一 定 会 违背 “等 价 ” 原 则 。 举 个 比较 极端 的 例子 ， 源 语言 存在 
无 论 使 用 怎样 的 翻译 方案 也 无 法 保证 


义 了 ， 只 能 从 输入 的 下 了 解 源 语言 程序 的 语义 信息 。 
言 所 人 允许 的 任何 语义 ， 
下 、FOR 等 结构 ， 而 信 只 允许 存在 | 
“等 价 ” 原 则 。 

当然 ， 参 考 一 些 现存 的 经 ! 


质 序 结构 。 那 么 ， 


了 也 是 一 种 不 错 的 选择 ， 妇 


在 这 种 | 


]， 也 不 能 使 编译 器 存在 任何 隐 


0 GCC 的 RTL、SSA、1cc 的 


DAG、Sun SPARC 的 SunIR、GEM 的 CIL 和 EIL、Intel 的 开 等 。 针 对 当前 的 源 语言 与 目标 


机 ， 虽 然 现 存 的 代 未 必 是 最 优 的 解决 方案 ， 


适应 性 问题 及 实现 它 所 需 付出 的 代价 。 


晶 是 它们 可 以 计 
构造 一 套 较为 完整 的 及 。 在 这 种 情况 下 ， 设 计 者 需要 更 多 考虑 这 


:一些 经 验 不 足 的 设计 者 方便 地 


下 面 简单 


' IR 对 目标 编译 器 的 各 种 


介绍 一 些 常用 人 民 。 按 了 及 的 逻辑 结构 ， 通 常 可 以 分 为 如 下 几 种 : 语法 树 、 后 绥 


表达 式 、DAG、 三 地 址 代码 等 。 除 了 三 地 址 代码 之 外 ， 读 者 应 该 对 提 到 的 其 他 逻辑 结构 并 不 


陌生 ， 它 们 都 是 常见 的 数据 结构 。 这 里 ， 笔 者 就 不 再 给 出 其 具 
性 简单 评说 几 句 ， 供 读者 参考 。 
语法 树 、DAG 〈 有 向 无 环 图 ): 这 两 


树 、 
形式 能 较 好 地 保存 源 程序 的 结构 ， 所 以 常 作为 自 


不 具备 的 优势 。 


图 的 算法 资源 比较 丰富 ， 关 于 它们 的 存储 结构 也 存在 许多 
下 而 上 的 语法 分 


后 缀 表达 式 : 也 称 为 逆 波 兰 表 达 式 ， 这 种 形式 简 六 


明晰 ， 
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后 
， 所 以 很 少 独 立 作为 一 个 实际 编译 器 的 IR 存在 。 

三 地 址 代码 : 也 称 为 “ 
。 甚 至 


了 些 书籍 认为 及 就 是 中 间 


数 。 例 如 ， (ADD 和 A， 


级 表达 式 有 着 其 他 形式 无 法 比拟 的 优势 。 不 过 ， 


体 


经 


区 式 ， 只 想 就 这 些 IR 的 特 


形式 者 是 比较 直观 的 ， 在 计算 机 科学 中 ， 基 于 
的 方案 可 供 参 考 。 语 法 树 
「 过 程 的 暂 存 数据 结构 。 而 
DAG 更 多 地 被 作为 三 地 址 代码 的 一 种 变 体 形式 ， 在 菜 些 优 化 算法 中 ，DAG 有 着 其 他 


多 式 所 


便于 存储 。 在 处 理 表达 式 翻 译 


多 式 上 而 言 ， 三 地 址 代码 与 汇编 代码 比较 类 似 ， 都 是 以 代码 列表 
， 指 的 就 是 每 一 行 代码 通常 包含 三 个 地 址 信息 
1，C ) 这 行 三 地 址 代码 的 含义 器 


， 即 


由 于 后 缀 表达 式 的 应 用 领域 比较 单 


四 元 组 ”， 即 操作 符 和 三 个 操作 数 地 址 。 这 是 一 种 最 为 常见 的 
代码 《〈 即 三 地 址 代码 )。 笔 者 认为 这 一 说 法 并 不 是 非常 准 


乡 式 存在 的 。 所 谓 的 
操作 数 1、 操 作 数 2、 结 果 操 作 
i 是 A+1 一 C。 这 种 形式 初 看 与 汇 


编 语言 有 点 类 似 ， 但 是 在 4 


成 三 地 址 代码 时 


中 间 表 示 | 第 5 党 


以 标号 


式 给 出 即 可 。 另 外 ， 读 者 也 不 必 茄 求 三 + 
意义 的 。 有 些 书 上 也 提 到 了 二 地 址 代码 (三 元 组 ) 的 
省 略 了 结果 操作 数 地 址 ， 而 是 将 操作 结果 存 入 操作 数 1 或 操作 数 2 的 存储 空间 内 。 实 际 上 ， 
二 地 址 代码 形式 可 能 更 贴近 于 x86 汇编 指令 的 格式 ， 但 是 它 的 通 
此 并 不 常用 。 三 地 址 代码 的 优点 是 便于 编译 器 生成 
的 转换 付出 高 昂 的 代价 ， 而 且 也 基本 上 能 满足 常 
是 完美 的 ， 由 于 它 是 相对 离散 的 ， 在 分 析 源 程序 结构 方面 ， 它 就 不 及 语法 树 便 捷 。Neo 


， 编 译 器 并 不 需要 计算 操作 数 的 实际 地 址 ， 只 是 


也 址 代码 与 》 


[上 纺 


指令 格式 的 统一 ， 这 是 没有 


EB 式 ， 它 和 三 地 址 代码 比较 类 似 ， 


省 
只 是 


性 却 不 及 三 地 址 代码 ， 因 


目标 代码 ， 编 译 器 不 必 为 复杂 的 IR 结构 


优化 算法 的 需要 。 当 然 ， 三 地 址 代码 也 不 


Pascal 的 IR 也 是 三 地 址 代码 ， 在 后 续 章 节 中 ， 笔 者 还 将 详细 讲解 。 


三 | 


类 : 高 级 


中 间 语 言 、 


最 后 ， 再 来 谈 谈 IR 的 级 别 ， 即 IR 依赖 于 目标 机 的 程度 
EB 式 (HIR)、 中 级 形式 (MIR ) 、 低 级 形式 〈LHR)， 也 可 称 为 高 级 中 间 语 言 、 中 级 
低级 中 间 语 言 。 


。 按 级 别 分 类 ， 


可 将 IR 分 成 三 


高 级 形式 〈HIR) 是 一 种 尽 可 能 保持 了 源 语 言 程 序 结构 的 及 ， 这 种 形式 能 较 好 地 保留 源 


为 IR 传递 给 后 端 。 

中 级 
能 够 适应 多 种 
特性 ， 又 能 适 
选择 。 


低级 形式 〈LIR ) 就 是 在 一 定 程度 上 包含 某 些 目标 机 特性 的 IR， 
作为 一 些 机 器 相关 的 优化 算法 的 输入 。 不 过 ， 
用 低级 形式 之 外 ， 低 级 形式 并 不 是 很 常见 。 因 


语言 作 优 化 。 


体系 结构 的 了。 上 
j 于 大 多 数 优化 算法 。 当 一 个 编译 器 仅 设 计 一 种 及 时 ， 中 级 形式 是 较 理 想 的 


级 形式 是 一 


程序 的 原始 语义 信息 。 由 于 高 级 形式 太 接 近 源 语言 程序 结构 ， 所 以 很 少 有 编译 器 将 其 独立 作 


区 式 〈MIJR ) 既 要 以 一 种 与 语言 无 关 的 方式 在 一 定 程度 上 反映 源 语 言 的 特性 ， 又 要 


级 别 的 概念 在 国 
揭示 了 IR 的 核心 。 有 


式 、 树 、DAG、 三 元 组 等 )。 
IR 的 核心 ， 从 编译 器 设计 角度 而 言 ， 应 该 更 关注 
各 种 逻辑 结构 ， 这 可 能 是 
认为 优秀 的 IR 所 采 


误 的 理 


如 
解 ， 


内 编译 原 


tr 


些 


国内 编 


y 
A 
ST 


圣 原 
际 上 ， 逻 辑 结构 只 


比较 常用 的 IR， 


j 的 逻辑 结构 就 是 


认为 这 


5.1.3 
IR 在 编译 器 设计 


的 地 位 与 作 |) 


FE IR 的 级 别 。 
徒劳 的 。 因 为 ， 在 笔者 看 来 ， 这 个 话题 或 许 会 让 读者 对 IR 产生 错 


顾 了 源 语言 、 目 标 机 的 


世 


比 目 标语 言 稍 高 级 ， 常 


实际 上 ， 除 了 一 些 较 大 型 的 编译 器 需要 使 
为 更 多 编译 器 设计 者 更 愿意 


直接 基于 目标 


理 书 籍 中 并 不 多 见 ， 不 过 ， 笔 者 却 觉得 这 种 分 类 比较 科学 ， 它 
里 书籍 在 讲述 I[R 时 ， 过 份 强调 其 逻辑 结构 《〈 例 如 ， 后 绥 
是 数据 结构 的 讨论 范畴 而 已 ， 并 不 是 设计 


在 此 ， 笔 者 不 想 过 多 讨论 I 的 


革 上 所 提 及 的 那 几 种 。 实 际 上 ， 出 于 对 整 
本 架构 的 考虑 ， 一 些 经 典 编译 器 的 IR 可 能 是 很 奇特 的 ， 根 本 无 法 将 其 严格 归 类 。 即 使 如 
此 ， 它 却 依然 是 经 典 的 。 例 如 ，GCC 的 RTL， 
观点 值得 商检 ， 必 竟 它 与 三 地 址 代码 的 形式 相差 其 远 。 


设计 IR 的 重要 意义 


有 些 书 坚 持 认为 RTL 是 三 地 址 代码 ， 但 笔者 


] 是 极其 重要 的 。 不 过 ， 正 如 前 面 所 提 到 的 ， 随 着 “ 端 ” 概 


念 的 出 现 ， 有 些 设 计 方 案 认为 编译 器 设计 者 只 需 设计 一 个 编译 器 的 前 端 ， 将 编译 产生 的 下 作 
为 GCC 之 类 的 编译 器 后 端的 输入 ， 


术 爱 好 者 而 言 ， 这 种 方法 的 优点 是 显而易见 


由 后 端 完成 将 IR 编译 成 


标 代码 的 过 程 。 对 于 一 些 编译 技 


的 ， 可 以 大 大 降低 编译 器 设计 者 的 工作 量 。 例 如 ， 


对 于 熟悉 GCC 接口 的 读者 而 言 ， 联 系 本 书 第 2 一 $ 章 相 关 前 端 理 论 与 技术 ， 构 造 基 于 GCC 的 
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四 、 编译 器 设计 之 路 
CL 


编译 器 前 端 应 该 并 不 算 太 困难 。 


因此 ， 有 些 观点 认为 : 随 着 IR 的 日 


趋 标准 化 、 


规范 化 ， 在 现 


代 编 译 技术 中 ， 研 究 IR 已 经 意义 不 大 了 。 不 过 ， 笔 者 并 不 认同 ， 原 因 有 如 下 两 点 : 
(1) 从 研究 与 学 习 编 译 技术 的 角度 而 言 ， 这 种 方法 无 法 对 编译 器 作 全 面 了 解 。 实 际 上 ， 


这 种 方法 只 完成 了 编 
GCC 这 样 的 开源 后 站 


情况 并 不 利于 
构 。 在 实践 中 ， 


法 预知 。 这 就 使 得 编译 器 设计 者 不 得 不 对 GCC 
解 GCC 后 端的 情况 下 ， 

《2) 从 企业 行为 的 角度 而 言 ， 这 种 方法 的 可 行 性 不 大 。 一 般 来 说 ， 商 月 
及 相关 文档 必定 是 开发 商 最 为 核心 的 技术 资料 ， 开 发 商 通常 不 会 轻易 公开 。 在 开源 运动 
(Open Source) 热火 朝天 的 今天 ， 开 发 商 能 承受 的 底线 可 外 

Neo Pascal 的 设计 目标 是 完成 一 个 完整 的 编译 器 ， 而 不 仅仅 是 一 个 编译 器 的 前 端 ， 因 
自行 设计 一 套 IR 供 Neo Pascal 使 用 。 当 然 ， 笔 者 水 平 有 限 ， 不 可 能 设 


此 ， 笔 者 还 是 倾向 于 


网 改 工程 将 是 非常 复杂 与 危险 的 。 


里 解 编译 器 的 核心 技术 ， 也 不 利于 针对 目标 机 的 某 些 特 公 


译 器 的 前 端 ， 后 端的 核心 技术 并 不 是 掌握 在 设计 者 的 手中 。 即 使 是 


着 ， 鉴 于 其 庞大 的 规模 ， 一 般 读 者 也 很 难 完 全 理解 其 设计 核心 的 。 这 种 


进行 后 端的 修改 或 重 


这 种 情况 并 不 少见 ， 虽 然 GCC 的 设计 堪 称 完美 ， 提 供 
机 描述 文件 〈 即 md 文件 )， 但 是 针对 


的 后 端 作 一 些 个 性 化 


也 就 是 免费 提供 多 


了 灵活 性 很 高 的 目标 
不 同 目标 机 的 一 些 奇怪 特性 ， 即 使 Stallman 恐怕 也 无 
的 修改 ， 在 不 能 完全 理 


编译 器 的 源 代码 


i 详 项 而 已。 


计 出 RTL、SSA 之 类 的 经 典 形式 。Neo Pascal 的 IR 只 是 一 个 可 行 的 方案 而 已 ， 并 不 苛求 完 
美 。 关 于 RTL、SSA 的 话题 ， 将 在 第 10 章 中 详细 讨论 。 


5.2 IR 生成 


5.2.1 


三 地 址 代码 概述 


前 面 已 经 提 到 了 三 地 址 代码 的 概念 。 在 众多 了 及 中 ， 三 地 址 代码 是 最 为 常用 的 。 由 于 


Neo Pascal 的 IR 也 是 一 种 三 地 址 代码 的 形式 ， 因 此 
址 ” 指 的 就 是 两 个 运算 分 量 


(操作 数 1、 


必要 详细 讨论 这 种 了 R。 所 谓 的 “三 地 
操作 数 2) 及 目标 操作 数 三 个 对 象 的 地 址 。 例 如 ， 


(ADD 5, A, B) 的 含义 是 5 十 A 一 B， 其 中 “ADD” 称 为 操作 码 ， 而 5 和 A 是 两 个 运算 分 


量 ，B 是 目标 操作 数 。 注 意 ， 三 地 址 代码 的 书面 表示 形式 并 不 唯一 ， 本 - 


的 形式 表示 三 地 址 代码 。 


计算 机 科学 家 提出 三 地 址 代码 的 理 
序 及 输出 目标 程序 都 是 线性 的 ， 


于 其 他 表示 形式 而 言 ， 


由 如 下 : 三 地 址 代码 是 一 种 线性 IR。 由 于 输入 源 程 
因此 ， 线 性 IR 有 着 其 他 形式 无 法 比拟 的 优势 。 另 外 ， 相 对 
程序 员 对 于 线性 表示 形式 通常 会 有 一 种 英名 的 亲切 感 ， 编 译 器 设计 者 


当然 也 不 例外 。 早 期 编译 器 设计 者 往往 都 是 汇编 语言 程序 设计 的 高 手 ， 


/ 


地 阅读 线性 的 三 地 址 代码 形式 。 同 时 ， 线 性 表示 天 


译 器 [24 端 3? 


那么 ， 


作为 接口 供 其 他 系统 读 取 使 用 。 


过 ， 也 曾 在 某 些 应 
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是 最 为 常见 的 而 已 。 在 纺 


领域 盛行 一 时 ， 尤 其 是 单 地 址 代码 。 


k 识 的 。 三 地 址 代码 # 


可 以 非常 自然 、 流 畅 


所 将 使 用 “四 元 组 ” 


yz 式 也 会 降低 输入 输出 的 实现 难度 。 随 着 纺 
“ 遍 ” 等 概念 的 出 现 ，IR 已 经 不 仅仅 是 一 种 存储 在 内 存 中 的 数据 结构 。 有 时 它 
也 需要 以 文件 形式 转 存 输出 ， 
定 有 读者 会 心 存疑 间 : 为 什么 将 其 设计 为 “三 地 址 ”的 形式 呢 ? 实际 上 ， 这 是 


计算 机 科学 家 经 过 多 年 实践 探索 后 才 得 到 不 是 唯一 的 线性 


译 技术 领 域 ， 二 地 址 代码 、 单 地 址 代码 《〈 即 栈 式 机 代码 ) 都 曾 


一 


说 


现 


这 
R， 只 能 
曾 出 


二 地 址 代码 比较 简 六 
期 ， 二 地 址 代码 主要 就 是 着 眼 了 


中 间 表 示 | 第 5 章 


EF ， 就 是 选择 其 中 一 个 对 象 同 时 充当 运算 分 量 与 目标 操作 数 。 在 早 


愿 而 已 ， 即 使 是 针对 x86 机 器 ， 


的 麻烦 ， 所 以 这 种 表示 形式 已 经 逐步 被 淘汰 了 。 
然而 ， 单 地 址 代码 的 情况 则 截然 不 同 了 ， 在 现代 编译 器 设计 中 ， 单 地 址 代码 也 是 应 用 


x86 机 器 而 提出 的 。 不 过 ， 实 践 证 明 ， 
二 地 址 的 优势 也 并 不 明显 ， 它 反而 可 能 


这 只 是 人 们 的 一 厢 情 
会 给 编译 器 带 来 一 定 


和 


区 


较 广 泛 的 一 种 了 及。 尤其 是 近年 随 着 混合 语言 的 日 渐 壮 大 ， 单 地 址 代码 也 重新 进入 了 人 们 的 视 
野 。 由 于 执行 单 地 址 代码 程序 的 栈 式 机 架构 相对 比较 简单 ， 可 以 非常 方便 地 构造 相关 的 解释 
所 以 单 地 址 代码 深 受 混合 语言 设计 者 的 欢迎 。 读 者 熟悉 的 Java 字 节 码 、.NET 


器 或 虚拟 机 ， 


的 I 都 是 单 地 址 代码 。 ea a x86 体系 结构 相差 甚 远 ， 可 能 读者 


所 知 不 多 。 不 过 ， 单 地 址 代码 还 是 一 种 比较 有 意思 的 表示 形式 ， 因 此 ， 笔 者 想 通过 一 个 简单 
的 实例 让 读者 对 单 地址 代码 有 所 了 解 。 


例 5-1 单 地 址 代码 实例 。 


(使 用 ildasm.exe 将 可 执行 文人 


5-1 是 一 个 .NET 工 汇编 的 实例 ， 左 侧 是 C# 的 源 程序 片段 ， 右 侧 是 开 汇编 的 片段 
F 反 汇编 即 得 到 该 结果 ) 。 当 然 ， 注 释 是 笔者 事后 加 上 的 。 


表 5-1 1L 汇编 实例 


C# 源 程序 片段 汇编 片段 

.maxstack 2 

ER .locals init ([0] int32 a, 

int a, b; [1] int32 bj) ”// 局 部 变量 列表 ，0、1 为 编号 

a=1; IL 0000: nop 

b=2: IL 0001: ldc.i4.1 // 将 立即 数 1 压 入 计算 栈 
IL 0002: stloc.0 /将 计算 栈 顶 元 素 置 入 0 号 变量 (a) 

和 IL 0003: ldeii4.2 /将 立即 数 2 压 入 计算 栈 

ee IL 0004: stloc.1 /将 计算 栈 顶 元 素 置 入 1 号 变量 (a) 
IL 0005: ldloc.0 /将 0 号 变量 压 入 计算 栈 
IL 0006: ldloc.1 /将 1 号 变量 压 入 计算 栈 
IL 0007: add /将 栈 顶 两 个 元 素 出 栈 相 加 ， 并 将 结果 压 入 计算 栈 
IL 0008: stloc.0 // 将 栈 顶 元 素 置 入 0 号 变量 (a) 
IL 0009: ret // 返 世 

某 些 读者 可 能 对 下 汇编 语言 比较 陌生 。 相 信 无 论 熟 悉 与 否 ， 借 助 笔者 的 详细 注释 ， 要 


读 懂 这 段 简单 的 开 汇编 程序 并 不 困难 。 设 置 这 个 实例 的 目的 只 是 让 读者 了 解 一 下 栈 式 机 及 


常 有 必要 的 ， 


单 地 址 代码 的 形式 。 这 里 
要 被 本 例 误导 。 


笔者 必须 澄清 一 点 : 实际 上 ， 工 汇编 语言 并 不 简单 ， 读 者 千 万 不 


当然 ， 对 有 志 


于 深入 研究 .NET 编译 器 的 读者 而 言 ， 学 习 工 汇编 语言 还 是 非 
它 是 深入 研究 NET 编译 器 的 基础 。 


三 地 址 代码 是 在 二 地 址 Co 的 基础 上 发 展 而 来 的 。 二 地 址 代码 的 不 足 之 处 在 于 它 通常 会 


给 其 中 一 个 源 操作 分 量 带 3 


定 副作用 。 当 然 ， 这 种 设计 的 灵感 最 初 是 来 源 于 x86 指令 系统 


的 ， 但 是 却 总 了 一个 重要 的 区 别 ， x86 指令 中 往往 都 是 以 寄存 器 作为 暂 存 空间 的 。 而 暂 存 空 
间 对 于 二 地 址 代码 却 是 一 个 棘手 的 问题 。 为 了 解决 二 地 址 代码 的 不 足 ， A 


一 般 来 说 


过 ， 三 地 址 代码 同样 


是 非常 重要 的 ， 


澡 作 分 量 不 产生 任何 副作用 的 形式 ， 那 就 是 三 地 址 代码 。 也 就 是 说 ， 在 一 行 三 地 址 代码 中 ， 
任何 运算 都 不 会 改变 两 个 源 操 作 分 量 。 这 是 三 地 址 代码 与 二 地 址 代码 的 i 区 别 。 这 个 特性 
它 将 使 得 编译 器 更 自由 地 复 用 名 字 与 值 ， 不 必 考 虑 代码 带 来 的 副作用 。 


， 三 地 址 代码 的 大 多 数 操作 都 是 由 四 项 组 成 ， 即 一 个 操作 码 和 三 个 地 址 。 不 


存在 级 别 差异 。 随 着 语言 复杂 性 的 提高 ， 在 现代 编译 器 设计 中 ， 三 地 址 
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辐 、 编译 器 设计 之 路 
ee 


代码 的 级 别 概念 显得 尤其 重要 。 根 据 编译 器 设计 的 需要 ， 有 些 三 地 址 代码 可 能 近似 于 源 语 


言 ， 而 有 些 三 地 址 代码 则 更 接近 于 上 
符 及 操作 分 量 的 复杂 性 。 下 面 ， 


代码 操作 符 的 集合 以 及 
因素 之 


标语 言 。 当 然 ， 级 别 主要 就 是 取决 于 三 地 址 代码 的 操作 
笔者 就 操作 符 及 操作 分 量 这 两 个 话题 来 讨论 三 地 址 代码 。 

操作 符 是 用 于 标识 三 地 址 代码 操作 含义 的 元 素 。 相 
1 象 程度 是 各 不 相同 的 。 其 中 ， 
般 而 言 ， 三 地 址 代码 将 包含 大 部 分 低级 操作 ， 即 


民 据 源 语言 、 目 标语 言 的 特点 ， 三 地 址 
抽象 程度 是 三 地 址 代码 设计 中 的 重要 
目标 机 所 支持 的 指令 。 不 过 ， 


这 并 不 意味 着 三 地 址 代码 就 是 机 器 指令 系统 的 映射 。 设 计 者 应 该 从 便于 后 端 处 理 的 角度 考 


上 大 9 


数组 等 是 完全 不 同 的 。 
是 一 次 32B 的 存储 


可 能 地 发 挥 三 地 址 代码 作为 中 间 语 言 的 作用 。 
在 Pascal 语言 中 ， 集 合 变量 的 赋值 或 者 传 参 实际 上 就 是 存储 
一 个 集合 变量 所 需 的 存储 空间 
区 拷贝 。 对 于 大 多 数 机 器 而 言 ， 通 常 都 不 提供 类 似 的 指令 。 
种 情况 ， 应 该 如 何 设计 三 地 址 代码 呢 ? 可 能 


下 
下 


两 种 方案 可 选 。 


区 的 复制 操作 ， 这 与 指针 、 
32B (256 位 ) ， 集 合 变量 的 赋值 就 
那么 ， 针 对 这 
条 三 地 址 代 


第 


2 


， 只 生成 


码 ， 设 置 一 个 独立 的 操作 符 〈 例 如 ，MOV_SET) ， 其 含义 就 是 将 源 地 址 起 始 的 32 个 字 节 连 


续 存 储 


代码 生成 器 完成 的 ， 目 标 代码 生成 器 可 以 使 用 一 段 目 
代码 ， 从 而 实现 等 价 转换 。 第 二 ， 从 目标 i 


区 中 的 数据 复制 到 目标 地 址 起 始 的 存储 区 中 。 这 种 方案 更 多 是 从 源 语言 的 角度 考虑 ， 
尽 可 能 在 I 中 体现 源 语言 的 语义 。 至 于 如 何 由 该 三 地 址 代码 生成 相应 的 目 


标 代码 是 由 目标 


标语 言 的 指令 序列 来 蔡 换 这 一 条 三 地 址 


语言 的 角度 考虑 ， 按 


目标 机 的 字 长 生成 若干 条 标准 


字 长 的 赋值 代码 ， 例 如 ， 以 32 位 目标 机 为 例 ， 就 需要 生成 8 条 三 地 址 代码 。 这 种 方案 使 得 


目标 代码 生成 比较 简单 ， 编 译 器 只 需 


址 代码 本 身 而 言 ， 它 更 多 地 只 是 承载 ] 


目标 机 的 特性 ， 


于 单一 IR 的 编译 器 而 言 ， 笔 者 并 不 提倡 使 用 第 二 种 广 


而 言 ， 可 根据 不 同 的 需要 选用 ， 两 种 方案 是 各 


读者 可 能 会 有 疑问 ， 第 一 


化 处 理 。 这 里 ， 暂 
化 技术 的 联系 。 
例 5-2 三 地 址 代码 与 优化 技术 。 


三 地 址 代码 与 优化 技术 如 图 


a:=[2]; mov_set [2], ,a 
b:=[3]; mov_set [3],,b 
c:=atb; set add a,b,c 


a) b) 


5-2 所 示 。 


mov_set [2], ,a 
mov_set [3], 
mov_set [2,3], ,c 


[3 


特色 的 。 
方案 的 优势 又 是 什么 呢 ? 实际 上 ， 其 优势 就 是 便于 后 端的 优 
不 详细 讨论 优化 ， 笔 者 只 是 通过 一 个 简单 的 实例 来 阐明 三 地 址 代码 与 优 


一 两 条 指令 替换 一 条 三 地 址 代码 即 可 。 不 过 ， 就 三 地 


却 很 难 明 确 地 表达 源 语言 的 语义 。 对 
案 。 然 而 ， 对 于 存在 多 种 的 编译 器 


b 


, ,b+28 
,b+0,c+0 
;b+8,c+8 


Or a+28,b+28,c+28 
d) 


图 5-2 三 地 址 代码 与 优化 技术 示意 


a) 源 程序 b) 方案 1 的 三 地 址 代码 


本 例 的 三 地 址 代码 只 是 一 种 逻辑 形式 而 
枝 末节 的 元 素 。 


[ll 


EE 点 ， 笔 者 简化 了 一 些 旨 
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c) 优化 后 的 三 地 


引 代 码 ”d) 方案 2 的 三 地 址 代码 


已 ， 并 不 是 由 Neo Pascal 实际 生成 的 。 为 了 突出 


本 例 是 一 个 Pascal 集 


结果 : a 的 值 为 [2]， 恒信 [3 c 的 值 为 [2，3 


A 


变量 时 ， 


合 变 量 相关 的 源 程序 ， 划 


中 a、b、c 都 是 集合 类 型 的 变 


中 间 表 示 | 第 


5 党 


量 。 程 序 运 


]。 注 意 ， 在 Pascal 语言 中 ， 当 运算 分 量 为 


加 法 运算 的 语义 即 为 集合 的 并 运算 。 先 来 比较 一 下 (b)、(c) 两 段 三 地 址 


代码 的 差异 ， 不 难 发 现 ，(b) 代 码 段 是 完全 按照 c -atb 的 语义 生成 的 而 (c) 代 码 段 是 直接 将 
集合 加 计算 的 结果 [2, 3] 赋 给 。 的 。 这 里 ， 暂 上 不 论 实际 生成 的 目标 代码 形 式 如 何 ， 仅 从 这 个 
简单 的 变换 而 言 ， 相 信 不 难得 到 如 下 结论 : 省 去 了 集合 加 和 运算， 程序 的 执行 效率 是 有 所 提高 


的 。 如 果 考 虑 实际 编译 器 生成 (b) 代 码 段 时 ， 
更 为 明显 了 。 当 然 ， 不 得 不 承认 编译 过 程 必须 为 优化 付出 一 定 的 时 间 代价 。 


明 ， 大 多 


数 用 户 愿 


常 有 利 的 。 


型 的 基 类 


占用 256 位 (32B) 存储 空 


型 元 素 的 


ed 
对 于 优化 算法 来 说 ， 它 可 以 非常 方便 地 获得 这 


总 和 必须 小 于 256 个 ， 这 是 由 全 


长 合 类 型 的 物 


还 可 能 产生 临时 变量 的 情况 ， 那 么 优化 的 效果 就 


不 过 ， 实 践 证 
显然 ，(b) 代 码 段 的 语义 非常 明确 ， 
三 条 三 地 址 代码 所 承载 的 语义 ， 这 对 优化 是 非 


再 来 看 看 (d) 代 码 段 ， 它 是 根据 方案 2 生成 的 三 地 址 代码 列表 。 注 意 ，Pascal 语言 规定 类 


一- 和 


人 否 贝 


表示 就 是 


表示 元 素 不 存在 于 
可 表示 为 (1100)b， 即 第 2、3 位 置 1， 其 余 位 置 0。 因 


4， 而 集 


合 [3] 的 十 进 制 表示 就 是 8。 从 (d) 代 码 段 中 ， 


际 语 义 了 ， 更 多 的 只 是 考虑 目标 机 的 物理 结构 及 目标 语言 的 语义 。 在 这 种 情况 下 ， 
要 想 实现 (d) 一 (c) 的 转换 也 就 变 得 非常 困难 。 当 然 ， 这 并 不 意 
的 ， 只 是 代价 较 大 而 忆 

通过 例 5-2 的 
本 例 提 到 的 优化 只 是 冰山 一 角 而 已 ， 不 同 的 优化 入 


的 ， 这 里 


成 元 素 。 


s 间 ， 每 一 位 表示 一 个 元 素 的 状态 ， 
集合 中 。 若 基 类 型 为 BYTE (人 允 计 


里 结构 决定 的 。 一 个 集合 变量 


置 位 表示 元 素 存在 了 


就 不 再 展 


下 面 ， 笔 者 再 从 撕 


讨论 操作 


汇 乡 


有 语 言 指令 


量 的 地 址 


该 指令 
显 式 说 明 。 


性 。 通 常 ， 


及 操作 分 量 


i 


分 量 的 目的 就 是 明确 一 个 操作 分 量 需 要 承载 哪些 信息 


果 作 分 量 的 角度 来 讨论 三 地 址 代码 。 操 作 分 和 


F 最 小 元 素 为 0) ， 那 么 ， 
此 ， 在 (dd) 代码 段 中 ， 集 合 [2] 的 十 进 制 
似乎 已 经 很 难看 到 源 程序 的 实 


集合 中 ， 
集合 [2, 3] 


优化 算法 


味 着 这 种 转换 是 不 可 能 实现 


述 ， 读 者 应 该 已 经 了 解 了 三 地 址 代码 操作 符 抽象 性 的 意义 所 在 。 当 然 ， 
法 对 于 三 地 址 代码 的 需求 也 是 不 尽 相同 


量 是 三 地 址 代码 的 另 一 个 组 


的 操作 分 量 是 非常 简单 的 ， 在 大 多 数 情况 下 ， 汇编 语言 中 只 需 措 述 操作 分 
量 的 宽度 《〈 即 占用 空间 大 小 ) 即 可 。 例 如 ; 


mov eax, dword ptr [aal 


而 指令 


的 左 操作 分 量 是 


同样 ， 


汇编 器 


一 个 寄存 器 ， 寄 存 器 的 地 址 及 宽度 是 机 器 的 固有 属性 ， 
令 的 右 操作 分 量 是 一 个 内 存 空间 ， 地 址 即 为 标号 aa 所 指出 的 地 
ptr 表示 其 宽度 为 4B。 在 汇编 语言 中 ， 操 作 分 量 的 相关 属性 并 不 多 ， 这 可 


可 能 是 仅 有 的 几 个 属 


所 以 不 必 
址 ，dword 


不 关心 该 存储 空间 中 的 数据 到 底 是 什么 类 型 ， 也 就 是 说 ， 
空间 中 数据 的 类 型 可 能 只 有 程序 员 本 人 可 以 解释 。 


aa 所 标识 内 存 


当然 ， 笔 者 仅 针对 那些 经 典 汇编 语言 及 汇 


编 器 进行 讨论 ， 而 HLA 之 类 的 高 级 汇编 语言 暂 不 做 考虑 。 


三 地 址 代码 级 别 的 关键 因素 。 实 际 上 ， 从 操作 分 量 


最 主要 的 差异 就 在 于 类 型 。 高 级 语言 的 操作 分 量 通常 都 是 有 类 型 的 ， 而 ; 


三 地 址 代码 作为 一 种 中 间 语 言 ， 也 有 必要 说 明 其 操作 4 
上 来 说 ， 不 难 


分 量 的 相关 属性 ， 


这 是 决定 


发 现 ， 高 级 语 二 :和 


5 汇编 语 


[ 编 语 言 则 不 具备 这 


一 特点 。 然 而 ， 类 型 又 是 一 个 非常 复杂 的 元 素 。 在 很 多 情况 下 ， 三 地 址 代码 的 级 别 就 是 取决 
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时 
[3 


hh 


其 是 否 支 持 以 及 刀 
码 讨 优 执 劣 。 不 过 ， 
三 地 址 代码 操作 分 量 的 类 型 
似 于 
可 以 避 开 类 型 描述 之 类 的 繁复 细节 ， 


编译 器 设计 之 路 
ee 


何 支 持 类 型 。 
它 却 影响 着 后 


这 个 问题 } 


不 好 回答 ， 人 们 


也 很 难 评价 这 两 


日 述 等 话题 。 


读者 可 能 会 有 


续 工 作 的 进行 。 在 国内 编译 原 到 


个 错 


三 地 址 代 


书籍 中 ， 很 少 提 及 关于 


觉 : 三 地 址 代码 就 是 一 种 近 


六 编 语 言 的 IR。 这 是 一 种 比较 常见 的 情况 ， 但 并 不 是 绝对 的 。 作 为 一 种 模型 ， 完 全 
只 需要 关心 操作 分 量 的 名 字 等 主要 


属性 即 可 。 不 过 ， 


就 实际 编译 器 设计 而 言 ， 这 恐怕 是 无 法 回避 的 。 本 书 提 及 这 
此 给 予 足够 关注 。 


以 


个 概念 是 需要 说 明 的 ， 
终 一 成 不 变 的 。 在 多 遍 编 
意义 的 。 例 如 ， 在 前 端 ， 主 要 就 是 致力 于 4 


最 后 ， 笔 者 简单 谈 谈 三 地 址 代码 的 物理 存储 结构 。 三 地 址 
许多 经 典 的 线性 表 结构 可 以 参考 。 关 于 线性 


可 能 会 涉及 一 些 三 地 址 代码 的 
创新 设计 一 些 更 适合 


要 ， 


现代 编译 技术 的 观点 。 轩 于 篇 幅 ， 


至 此 ， 


参见 相关 书籍 。 
5.2.2 ”Neo Pascal 三 地 址 代码 的 实现 
前 面 读者 应 该 已 经 了 解 了 三 地 址 代码 的 基本 概念 。 下 面 ， 就 来 看 看 Neo Pascal 三 地 址 代 


码 的 实现 ， 本 书 将 其 


~ 


于 lcc 的 了 豚 。 笔 者 觉 


得 lcc IR 的 优势 比较 显著 ， 
者 分 享 的 。 下 面 给 出 完整 的 NPIR 的 操作 符 列 表 ， 供 读者 参考 ， 见 表 5-2。 


表 


民 据 一 些 经 典 编译 器 的 设计 经 验 ， 三 j 
译 器 中 ， 使 


不 同 物理 存 


话题 的 目 


尺码 是 


的 就 是 希望 读者 对 


的 结构 ， 这 里 


1 就 不 


里 论 记 


也 址 代码 的 物 到 
嵌 结 构 来 实现 不 同 阶段 的 三 地 址 代码 是 有 
成 三 地 址 代码 ， 顺 序 结构 可 能 较 优 。 而 在 后 端 ， 
医改 、 调 度 ， 链 式 结构 就 优势 明显 了 。 当 然 ， 根 据 应 用 的 需 
系统 的 物理 结构 是 完全 可 以 接受 的 。 
笔者 已 经 详细 讨论 了 三 地 址 代码 的 相关 


笔者 省 略 了 其 中 


其 是 其 操作 和 


种 线性 表示 
深入 讨论 。 不 过 ， 有 


多 式 ， 所 


结构 并 非 自 始 至 


5 题 ， 从 实践 设计 角度 ， 阐 明了 某 些 
的 某 些 常识 性 的 概念 ， 有 需要 的 读者 可 以 


简称 为 “NPIR” (Neo Pascal IR)。 三 地 址 代码 设计 主要 包括 两 个 方 
面 : 操作 符 与 操作 数 。NPIR 的 操作 符 并 不 是 完全 由 笔者 赁 空想 


象 出 来 的 ， 其 设计 灵感 来 源 


表 5-2 ”NPIR 的 操作 符 


相等 (EQU) 


的 设计 经 验 是 值得 与 各 位 读 


EQU 1 1 字 节 EQU S 字符 串 EQU A 数组 
EQU 4 4 字 节 EQU 8 8 字 节 EQU 8F 8 字 节 浮 点 数 
EQU 4F 4 字 节 浮 点 数 EQU 2 5 字 节 EQU 32 32 字 节 
不 等 (NEQU) 
NEQU 1 1 字 节 NEQU S 字符 串 NEQU 4 4 字 节 
NEQU 8 8 字 节 NEQU_8F 8 字 节 浮 点 数 NEQU _4F 4 字 节 浮 点 数 
NEQU 2 2 字 节 NEQU 32 32 字 节 NEQU A 数组 
小 于 (LS) 
LS 1 1 字 节 LSS 字符 串 LS 4 4 字 节 
LS 8 8 字 节 LS_8F 8 字 节 浮 点 数 LS_4F 4 字 节 浮 点 数 
LS 2 2 字 节 LS_1U 1 字 节 无 符号 LS_2U 2 字 节 无 符号 
LS 4U 4 字 节 无 符号 
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中 间 表 示 | 第 5 学 
( 续 ) 
大 于 (MR) 

MRl 1 字 节 MR S 字符 串 MR 4 4 字 节 
MR 8 8 字 节 MR_8F 8 字 节 浮 点 数 MR 4F 4 字 节 浮 点 数 
MR 2 2 字 节 MR 1U 1 字 节 无 符号 MR 2U 2 字 节 无 符号 
MR 4U 4 字 节 无 符号 

小 于 或 等 

LE 1 1 字 节 LES LE 4 4 字 节 

LE 8 8 字 节 LE 8F 字 : LE 4F 4 字 节 浮 点 数 

LE 2 2 字 节 LE_1U 1 字 节 无 符号 LE 2U 2 字 节 无 符号 
LE 4U 4 字 节 无 符号 

大 于 或 等 于 (ME) 

ME 1 1 字 节 ME S 字符 串 ME 4 4 字 节 
ME 8 8 字 节 ME 8F 8 字 节 浮 点 数 ME 4F 4 字 节 浮 点 数 
ME 2 2 字 节 ME 1U 1 字 节 无 符号 ME 2U 2 字 节 无 符号 
ME 4U 4 字 节 无 符号 

集合 包含 (IN) 

INC CHAR 值 INI INTEGER 值 INB BOOLEAN 值 
IN_SH SHORTINT 值 IN_SM SMALLINT 值 IN_W WORD 值 
IN_LW LONGWORD 值 INE ENUM 值 

减法 (SUB) 
SUB 4 4 字 节 SUB_8F 8 字 节 浮 点 SUB 8 8 字 节 
SUB_SET 集合 差 SUB 2 2 字 节 
加 法 (ADD) 
ADD S 字符 串 连接 ADD 4 4 字 节 ADD 8F 8 字 节 浮 点 数 
ADD SET 集合 并 ADD 2 2 字 节 
或 (OR) 
OR 0 位 或 OR 4 4 字 节 OR_1 1 字 节 
OR 2 2 字 节 
异 或 (XOR) 
XOR 0 位 异 或 XOR 4 4 字 节 XOR 1 1 字 节 
XOR 2 2 字 节 
乘法 (MUD) 
MUL 4 4 字 节 MUL 8F 8 字 节 浮 点 数 MUL SET 集合 交 
除法 (DIV) 
DIV_8F 8 字 节 浮 点 数 DIV 4 4 字 节 
取 模 (MOD) 
MOD 4 4 字 节 
右 移 (SHR) 

SHR 4 4 字 节 SHR_1U 1 字 节 无 符号 SHR 1 1 字 节 

SHR 2 2 字 节 SHR 2U 2 字 节 无 符号 SHR 4U 4 字 节 无 符号 


性 i 
罗 、 编译 器 设计 之 路 
Ck) 


优势 的 。 那么 ， 读 者 不 妨 思考 一 下 其 优势 何 帮 
同时 作为 MIR、LIR 使 用 ， 


的 观点 


示 ， 那 么 ， 这 20 个 操作 符 和 最 后 一 类 的 15 个 操作 符 就 7 
目标 机 几乎 是 无 关 的 ， 因 为 它 既 没 有 涉及 具体 目 

然而 ， 仅 考虑 大 类 下 属 的 具体 操作 符 ， 那 么 ， 
性 ， 例 如 ， 处 理 机 字 长 、 物 理 存储 结构 等 。 


那么 ，NPIR 又 是 如 何 实现 LIR 与 MIR 之 间 无 代价 转换 的 呢 ? 实际 上 ， 这 是 非常 简单 
的 。NPIR 操作 符 集 合 是 一 组 
号 ， 根 据 枚 站 
EQU 
了 所属 操 作 符 加 以 编 


1<<4， 而 
的 所 


166 


余 个 操作 符 分 为 21 大 类 ， 
即 除 “ 其 他 ”类 之 外 ) 分 别 用 


即 “ 相 等 ”、 


“不 等” SC 
1 个 操作 符 《〈 即 表 头 括号 中 字符 ) 表 
形成 了 一 套 MIR。 这 个 操作 符 集合 与 


E? 这 种 方案 的 目的 在 于 得 到 的 三 地 址 代码 可 以 
并 且 不 必 考 虑 LIR 到 MIR 的 转换 代价 。 有 些 读者 可 能 会 对 笔者 
所 怀疑 。 下 面 解释 一 下 其 中 的 原因 。 

首先 ， 按 功能 将 这 13 
头 。 如 果 将 前 20 个 类 别 ( 


( 续 ) 
左 移 (SHL) 
SHL 4 4 字 节 SHL 1U 1 字 节 无 符号 SHL 1 1 字 节 
SHL 2 2 字 节 SHL 2U 2 字 节 无 符号 SHL 4U 4 字 节 无 符号 
(AND) 
AND 0 位 与 AND 4 4 字 节 AND 1 1 字 节 
AND 2 2 字 节 
取 负 (NEG) 
NEG 4 4 字 节 NEG 1 1 字 节 NEG 2 2 字 节 
NEG 8F 8 字 节 浮 点 NEG 4F 4 字 节 浮 点 数 
取 非 (NOT) 
NOT 0 位 非 NOT 4 4 字 节 NOT 1 1 字 节 
NOT 2 2 字 节 
赋值 (ASSIGN) 
ASSIGN 1 1 字 节 ASSIGN S 字符 串 ASSIGN 4 4 字 节 
ASSIGN 2 2 字 节 ASSIGN 8 8 字 节 ASSIGN_N 多 字 节 
ASSIGN 32 32 字 节 
其 他 
JMP 无 条 件 跳 转 LABEL 标号 定义 PARA 传递 参数 
RETV 传递 返回 值 CALL 函数 调 JT 条 件 真 跳 转 
JNT 条 件 假 跳 转 JE 1 1 字 节 相等 跳 转 JE 2 2 字 节 相等 跳 转 
JE 4 4 字 节 相等 跳 转 CALLPTR 调用 函数 指针 ASM 汇编 
GETADDR 获得 变量 地 址 SET_ADDITEM 元 素 加 入 集合 GETPROCADDR 获得 函数 地 址 
仅 就 表 5-2 的 规模 而 言 ， 可 能 读者 会 觉得 NPIR 是 一 个 非常 庞大 的 体系 。 从 IR 设计 的 
角度 而 言 ， 这 种 设计 似乎 并 不 是 非常 合理 。 不 过 ， 有 理由 相信 这 种 来 自 lcc 的 设计 思想 是 有 


[2 小 于 等 表 


标 机 的 特性 ， 也 没有 过 多 考虑 物理 存储 结构 。 


完整 的 枚 举 值 。 笔 
常量 的 编码 就 可 以 对 类 别 及 其 


它 就 是 一 套 LR。 其 中 涉及 一 些 目标 机 特 


编码 规则 对 各 枚 
所 属 操作 符 加 以 区 分 。 例 如 ，EQU 的 编码 为 
_1、EQU_S 的 枚 举 值 分 别 为 (1<<4)+1 和 (1<<4)+2， 依 此 类 
号 。 也 就 是 说 ， 操 作 符 编号 二 进 制 值 的 高 5 位 


» 


ls 常量 进行 纺 


E， 将 EQU 类 别 


(由 于 一 共有 21 


类 ， 


符 ) 


MIR 。 
统 处 理 


优化 


为 是 


合 类 型 数据 所 占 


以 非 


需要 5 位 二 进 制 值 表 示 ) 表示 


表示 操作 符 在 该 类 
注意 ， 在 Neo Pascal i 


后 的 最 终 形式 是 LIR。 这 里 ， 


/fe 


、\ 十 


十 论 完 NPIR 的 设计 目 
(1) 在 
有 


ct 


re as sl ee 


带 字 节 指示 的 操作 符 中 ， 
数 的 操作 符 ， 


万 夺 口 


付 写 


的 存储 空 
实际 上 ， 详 8 
常 轻松 地 理解 。 


其 类 别 ， 低 4 位 (由 
别 中 的 顺序 编号 。 通 过 这 档 
吾 义 分 析 过 程 中 ， 
讨论 LIR 转换 到 MIR 的 目 
法 是 基于 MIR 实现 的 。 通 过 简单 地 屏蔽 操作 符 编码 的 低 4 位 就 可 以 获得 
是 设计 者 乐意 见 到 的 。 


的 之 后 ， 笔 者 针对 NPIR 捞 


除了 浮 点 数 及 明确 
即 三 地 址 代码 的 操作 数 都 是 有 符号 类 型 的 值 或 变量 。 
(2) NPIR 中 设置 了 32B 的 操作 符 的 目的 是 处 理 集合 类 型 变量 及 数据 的 ， 
间 就 是 32B (256 位 )。 

分 析 NPIR 操作 符 的 含义 是 没什么 意义 的 ， 对 汇编 语言 稍 有 了 解 的 读者 可 


中 间 表 示 


于 同 


的 就 是 考虑 到 和 


时 作答 的 特点 作 两 点 说 明 
说 明 无 符号 


第 5 章 | 


一 类 别 中 最 多 不 超过 16 种 操作 
的 编码 方式 ， 就 可 以 方便 地 将 LIR 转换 为 
提交 的 三 地 址 代码 是 MIR 形式 ， 而 经 过 类 型 


系 
民 多 中 间 代 码 
MIR 的 结 


数 的 操作 符 之 外 ， 都 默认 


因为 Pascal 集 


至 此 ， 笔 者 已 经 详细 地 讲解 了 NPIR 的 操作 符 的 相关 内 容 。 下 面 ， 再 来 简单 看 看 操作 数 
及 其 存储 结构 。NPIR 的 操作 数 是 非常 简单 的 ， 主 要 由 以 下 三 个 字段 描述 : m_iType、 
m iLink、m_bRef。 结 构 声 明 如 下 所 示 : 
【声明 5-1】 
struct OpInfo 
{ 
enum {CONST, VAR, PTR, LABEL, NONE, PROC} m iType; 
int m iLink; 
bool m bRef; 
}; 
其 中 ，m_iType 描述 该 操作 数 的 类 型 ， 即 常量 、 变 量 、 指 针 、 标 号 、 过 程 等 。m_iLink 
是 指向 实际 操作 数 的 指针 ， 网 如 ， 操 作 数 类 型 为 变量 ， 则 m_iLink 的 值 指向 该 变量 在 变量 信 
妃 表 中 的 位 序 。m_bRef 表示 该 操作 数 是 否 需要 引用 访问 《或 者 称 为 间接 访问 ) 。 对 于 NPIR 
而 言 ， 操 作 数 的 结构 仅 此 而 已 。 
当然 ， 与 声明 5-1 相 比 ，Neo Pascal 源 代码 中 的 操作 数 声明 较 复杂 。 这 里 ， 读 者 可 以 暂 


且 略 过 


过 。 下 面 ， 再 来 看 看 NPIR 的 声明 


【声明 5-2】 
struct IRCode 


{ 
OpType m eOpType; 
OpInfo m Opl,m Op2,m Rslt; 


vector<IRCode> m Codes; 


全: 


实际 上 ，m_Codes 并 不 是 一 个 


乡 式 : 


// 操 作 符 ， 即 称 为 操作 类 型 
// 操 作 数 1， 操 作 数 2， 结 果 操 作 数 


变量 ， 而 是 过 程 


信息 表 项 的 


个 属性 ， 也 就 是 说 
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NPIR 是 以 函数 或 过 程 为 单位 组 织 的 。 下 面 ， 笔 者 给 出 一 个 完整 的 实例 分 析 ， 以 便 读者 对 
NPIR 有 感性 的 认识 。 
例 5-3 NPIR 实例 分 析 ， 见 表 5-3。 


表 5-3 NPIR 实例 分 析 


Neo Pascal 源 程序 NPIR 
program main(input,output); (ByteToInt la 13 ) 
var jj:integer; (ASSIGN 4 se 3 d ) 
begin (LABEL | ) 
fori:=lto 10 do (ByteTomt , 10,,_TS ) 

jj+ti; (LE 4 , 工 _ IT5 ，T4 ) 

begin (NT ，T4,， LO0 ) 
end; (ADD 4 ,J,I,_T6 ) 
end. (ASSIGN 4 ,_T6,,J ) 
(LABEL 2 ) 

(ByteToInt 1 17 ) 

(ADD 4 Ls_T7sl ) 

(JIMP 9 ) 

(LABEL _L0, ) 


这 个 实例 比较 简单 ， 对 于 熟悉 汇编 语言 的 读者 ， 相 信 并 不 需要 太 多 的 注释 。 不 过 ， 读 者 
可 能 对 其 中 的 ByteToInt 操作 符 有 所 疑惑 。 确 实 ， 在 先前 操作 符 列表 中 ， 笔 者 并 没有 提 到 
ByteToImt。 实 际 上 ， 从 字面 上 来 看 ， 也 不 难 猜 出 其 类 型 转换 的 功能 。 读 者 的 关键 问题 可 能 是 
想 知道 它 到 底 是 不 是 操作 符 ? 答案 是 肯定 的 。 实 际 上 ， 表 5-2 所 列 出 的 操作 符 尚 不 完整 ， 还 
有 一 部 分 类 型 转换 的 操作 符 并 不 在 其 中 。 关 于 这 类 操作 符 ， 将 在 第 6 章 中 详细 阐述 。 

关于 NPIR 的 优点 ， 先 前 已 经 讲 了 不 少 了 ， 选 用 这 种 形式 还 是 具有 一 定 积极 意义 的 。 下 
面 ， 笔 者 想 客 观 地 谈 谈 NPIR 设计 的 不 足 之 处 。 由 于 NPIR 主要 定位 是 MIR、LIR， 所 以 源 
程序 中 的 某 些 非常 明显 的 语言 结构 可 能 会 被 隐藏 ， 例 如 ， 数 组 访问 、 记 录 访 问 等 在 NPIR 中 
都 是 以 指针 引用 形式 出 现 。 当 然 ， 从 语义 的 角度 而 言 ， 这 是 完全 等 价 的， 但 是 这 种 形式 却 并 
不 利于 某 些 别名 分 析 算 法 的 实现 。 实 际 上 ， 这 就 是 前 面 所 说 的 级 别 问题 ， 相 对 而 言 ， 抽 象 语 
法 树 等 HIR 在 这 方面 的 表现 就 比较 有 优势 了 。 
由 于 NPIR 是 Neo Pascal 的 一 个 重要 组 成 部 分 ， 因 此 ， 深 入 理解 NPIR 对 于 后 续 学 习 是 
有 重要 意义 的 。 转 于 篇 幅 ， 就 不 再 举例 分 析 了 。 对 于 某 些 尚 不 熟悉 NPIR 的 读者 ， 可 以 自己 
调试 Neo Pascal 源 代码 ， 将 NPIR 输出 与 源 程序 对 照 学 习 。 


5.2.3 翻译 机 制 概述 


本 小 节 将 讨论 编译 器 的 翻译 机 制 。 实 际 上 ， 先 前 讨论 的 词法 、 语 法 分 析 及 生成 符号 表 等 
工作 无 非 都 是 为 程序 翻译 提供 决策 支持 的 ， 翻 译 工作 才 是 编译 器 的 核心 。 读 者 应 该 对 自然 语 
言 的 翻译 并 不 陌生 ， 其 至 不 敢 想 象 复杂 的 翻译 工作 可 以 由 机 器 自动 完成 。 自 然 语言 翻译 确实 
是 一 项 复杂 的 工作 ， 人 迄今 为 止 ， 人 们 还 无 法 实现 一 个 精准 的 自然 语言 翻译 系统 。 然 而 ， 程 序 
设计 语言 与 自然 语言 不 同 ， 机 器 翻译 程序 设计 语言 是 完全 可 能 的 ， 并 且 已 经 有 非常 成 功 的 实 
例 。 不 过 ， 笔 者 必须 指出 ， 编 译 器 自动 生成 的 目标 代码 的 质量 是 无 法 达到 或 超越 经 过 精 雕 细 
琢 的 手工 代码 的 ， 即 使 是 具有 强大 优化 机 制 的 GCC、Intel C++ 等 也 无 法 保证 目标 代码 是 最 优 
的 。 当 然 ， 与 一 些 计算 机 科学 的 经 典 问 题 类 似 ， 编 译 技术 中 的 “代码 最 优化 ”也 是 难以 衡量 
与 评价 的 。 


168 


经 过 前 面 的 i 


解 ， 编 译 器 的 翻译 
插入 相应 的 语义 子 程序 ， 使 之 完成 语法 


语法 制导 的 理论 与 技术 。 不 过 ， 仅 仅 了 解 语 法 制导 的 翻译 过 程 是 远 远 不 够 的 。 这 呈 
判 的 实现 。 


译 方案 入 手 ， 讨 论 翻译 机 1 


翻译 方案 就 是 讨论 源 语 言 结 


构 与 IR 之 间 的 联系 。 例 妇 


捉 导 的 翻译 。 在 分 析 


EA. 


付 宁 


中 间 表 示 | 第 5 这 


表 处 理 时 ， 笔 者 详 


1L 制 已 经 并 不 神秘 了 。 编 译 器 设计 者 就 是 通过 在 文法 中 


讲解 了 
， 将 从 一 


1H， 讨论 case 结构 对 应 的 人 民 序 


列 、 函 数 的 I 等 。 翻 译 方案 对 编译 行为 、 后 端 优化 器 设计 及 效能 都 有 着 很 大 的 影响 。 目 


前 ， 读 者 所 熟悉 的 编译 器 都 不 是 
都 是 有 严格 的 算法 定义 的 ， 


纺 


者 也 并 不 期 户 编 译 器 独立 思考 与 创新 。 


在 


基础 。 下 面 看 一 个 翻译 方案 的 实例 ， 见 表 5-4。 


for 语句 结构 


表 5-4 for 语句 翻译 方案 实例 


翻译 方案 A 


翻译 方案 B 


真正 智能 的 (包括 动态 编译 器 )。 编 译 过 程 中 的 每 一 步 翻 译 


译 器 本 身 并 不 进行 学 习 。 当 然 ， 就 编译 器 设计 初衷 而 言 ， 设 计 
生成 三 地 址 代码 的 阶段 ， 翻 译 方案 就 是 设计 算法 的 


for 变量 := 初 值 to 终 值 do 
begin 


end; 


Lx0: 


变量 一 初 值 


让!( 变 量 > 终 值 ) goto Lx0 
变量 一 变量 +1 
goto Lxl 


以 上 的 实例 是 for 语句 的 翻译 方案 ， 虽 然 两 个 方案 结 


果 都 是 正确 的 ， 但 是 无 论 


让 言 沪 


2 


即便 如 此 ， 翻 译 方案 的 设 


昌 
候 


从 代码 的 篇 幅 还 是 代码 的 效 
方案 A 明显 优 于 方案 B。 翻 译 方案 设计 的 主要 
工作 就 是 得 到 相对 较 优 的 人 R 结构 。 这 项 工程 对 于 熟悉 三 
地 址 代码 或 者 机 器 汇编 的 设计 者 来 说 ， 可 能 并 不 复杂 。 


计 同 相 


是 具有 一 定 挑战 性 的 。 


以 case 结构 为 例 ， 众 所 周知 ，case 语句 〈 即 C 语言 中 的 


switch 语句 ) 是 一 种 多 分 支 结构 。 然 而 ， 由 于 大 多 数 


标 机 指令 系统 都 不 支持 多 分 支 结 构 ， 因 
5-2 所 示 的 例 程 ， 


构 。 不 过 ， 和 针对 图 


不 难 


Lxl: 


Lx2: 


Lx0: 


case I of 


变量 一 初 值 
让 (变量 <= 终 值 ) goto Lx2 
goto Lx0 


变量 一 变量 +1 
goto Lxl 


1..5: Caption := Low'; 


6..9: Caption := 'High'; 


0, 10..99: Caption := 'Out of range'; 


end; 


医 


5-2 ”case 语句 实例 


此 ， 通 常 是 将 其 翻译 成 多 级 从 套 的 if-then-else 结 
发 现 ， 这 个 例 程 的 特点 是 分 支 非 常 紧密 。 


0 三 


人 bE 人、 


况 下 ， 继 续 使 用 if-then-else 结构 进行 翻译 就 可 
用 于 查 表 方案 。 这 是 一 种 经 典 的 处 理 方式 ， 有 兴趣 的 读者 可 以 参考 ; 


的 例 程 是 查 表 方 案 最 简 


Ne 


显得 


El 


查 表 技术 ， 而 是 想 说 明 翻 译 方案 选择 的 问题 。 


比较 腾 肿 。 实 际 上 ， 这 种 避 
[ 编 语 言 的 教程 。 


在 这 种 情 


图 


5 2 


单 的 处 理 ， 实 际 上 ， 碍 表 方案 也 可 以 应 用 于 一 些 分 支 非 常 多 的 情况 。 
情况 下 ， 编 译 器 也 需要 为 此 付出 一 定 的 空间 代价 。 这 里 ， 


笔者 的 目的 不 在 于 讨论 


针对 不 同 的 实际 情况 ， 存 在 不 同 的 翻译 方案 ， 当 然 ， 有 时 它们 是 相对 较 优 的 。 编 译 器 如 
何 选择 翻译 方案 呢 ? 例如 ， 认 定 例 程 是 分 支 紧密 型 的 标准 是 什么 ?多 少 分 支 才 认 为 是 多 分 支 


当 
Th » 


情况 ?等 等 。 
得 答案 。 因 


付出 的 努力 还 是 


通 


比较 大 的 。 


此 ， 翻 译 方案 的 设计 并 不 是 一 项 容易 的 引 


这 些 问 题 都 需要 编译 器 设计 者 经 过 一 定 的 理论 订 


E 明 及 实验 总 结 


和， 为 了 达 至 


后 才能 获 
上 相对 最 优 的 翻译 方案 ， 需 要 
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编译 器 设计 之 路 


] 5.3 ”语句 翻译 概述 


5.3.1 


译 、 表 达 式 翻译 。 
低级 语言 ( 


语句 翻译 基础 


前 面 ， 笔 者 已 经 讲解 了 一 些 与 生成 民有 关 的 理论 知识 ， 这 些 理论 知识 是 分 析 IR 生成 模 
块 的 基础 。 在 本 小 节 中 ， 笔 者 将 着 眼 于 分 析 编 译 器 的 翻译 机 制 ， 看 看 编译 器 是 如 何 将 输入 源 


程序 翻译 成 及 的 。 对 大 多 数 程序 设计 语言 而 言 ， 编 译 器 的 翻译 主要 涉及 两 个 领域 : 语句 翻 
结构 化 语句 与 表达 式 是 高 级 语言 最 重要 的 两 个 旨 
[ 编 语言 ) 的 主要 标志 。 


成 元 素 ， 同 时 也 是 区 别 于 


程序 设计 语言 的 语句 是 一 个 非常 精致 的 体系 结构 ， 它 们 的 组 合 可 以 诠释 任何 复杂 的 逻 


辑 。 一 门 程序 设计 语言 的 语句 少 则 数 种 ， 多 则 十 几 种 ， 就 是 这 样 一 个 体系 规模 却 创造 出 了 一 


个 千变万化 的 奇妙 世界 。 在 笔者 看 来 ，“ 精 致 ”一 词 仍 不 足以 描绘 其 本 质 。 读 者 熟悉 的 这 个 
语句 结构 模型 非常 经 典 ， 无 论 是 结构 化 语言 还 是 面向 对 象 语言 都 没有 其 覆 其 主导 地 位 。 
习惯 上 ， 将 语句 结构 分 为 三 类 : 顺序 结构 、 选 择 结构 、 循 环 结构 ， 这 恐怕 是 每 位 程序 员 


Pascal 一 共 提供 


170 


笔者 先 给 出 Neo Pascal 语句 相关 的 文法 ， 以 便 后 续 章 节 中 针对 各 类 语句 结构 进行 详 
分 析 。 


【文法 5-1】 
语句 序列 
语句 行 
语句 
标识 符 起 始 语 名 
过 程 调用 语句 
其 他 语句 


for 语句 后 部 
让 语句 后 部 


case 分 支 


! 


语句 行 语句 序列 | 8 


语句 ; 
标识 符 061 标识 符 起 始 语 句 | 其 他 语句 | 
变量 1 053 := 表达 式 064| ”:062 语句 | 过 程 调用 语句 


(101 实 参 列 表 )066 | s005 

goto 标识 符 063 

break 081 

continue 082 

begin 语句 序列 end 

while 071 表达 式 073 do 语句 072 

repeat 074 语句 序列 until 表达 式 075 

for 标识 符 076 := 表达 式 077 for 语句 后 部 
这 表达 式 068 then 语句 于 语句 后 部 070 
case 表达 式 084 of case 分 支 end 089 

asm 字符 串 常量 ， 字 符 串 常量 083 end 
with 090 变量 053 091 do 语句 092 

to 表达 式 078 do 语句 079 | downto 表达 式 080 do 语句 079 
else 069 语句 | & 

常量 列表 087: 语句 088 ; case 分 支 |8 


己 烂熟 于 心 的 。 本 章 将 从 编译 器 设计 的 角度 ， 让 读者 理解 各 种 语句 结构 的 内 核实 现 。Neo 
了 12 种 语句 结构 ， 分 别 是 赋值 语句 、 过 程 函 数 调 

合 语句 、while、repeat、if、for、case、asm、with。Neo Pascal 的 语句 结构 是 完全 参考 标准 
Pascal 实现 的 ， 并 在 标准 Pascal 的 基础 上 加 入 了 asm 语句 。 


语句 、goto、continue、 


的 


中 间 表 示 | 第 5 章 


从 Neo Pascal 的 文法 来 看 ， 笔 者 将 Neo Pascal 的 语句 结构 分 为 两 类 : 标识 符 起 始 语句 、 


~ 


他 语句 《也 就 是 关键 字 起 始 语句 ) 。 


调用 语句 以 及 标号 语句 ， 而 


其 全 


~ 、\ 


的 语句 都 属 


吞 公 五 


Pascal 语言 中 


， 发 口 甩 


句 结束 处 仍 需要 标注 分 号 。 


下 面 ， 先 来 谈 谈 Neo Pascal 语句 翻译 的 总 体 实现 。 根 据 IR 的 设计 目 
的 任何 语句 结构 都 将 转换 成 等 价 的 IR 形式 ， 而 这 种 转换 了 


其 中 ， 标 识 符 起 始 


句 (BEGIN...END 结构 ) 处 至 


于 后 者 。 这 里 ， 读 者 应 该 举 


与 其 他 普通 语句 是 一 样 的 ， 


语句 只 有 三 种 ， 即 赋值 语句 、 过 程 
FE 意 一 个 细节 ， 在 


口 


所 以 复合 语 


标 ， 高 级 语言 
[ 作 完 全 是 由 若干 个 语义 子 程 


序 协调 完成 的 。 然 而 ，NPIR 是 一 种 MIR， 仅 提供 了 一 些 跳 转 操作 符 ， 所 以 编译 器 不 得 


不 将 Neo Pascal 的 各 种 语句 结构 转换 成 由 跳 转 、 标 号 等 组 成 的 IR 序列 。 虽 然 各 
器 设计 IR 形式 不 尽 相 同 ， 但 是 ， 使 用 跳 转 、 标 号 旨 


共识 


pA 


的 。 


语句 的 各 种 租 套 组 合 是 不 可 预知 的 ， 设 计 者 通常 是 无 法 穷尽 各 种 存 妊 
Bb 么 ， 面 对 这 个 复杂 
并 不 需要 过 多 考虑 嵌 套 组 合 等 复杂 情况 ， 
对 后 ， 再 逐步 考虑 各 种 复杂 情况 的 存在 。 


作 的 复杂 性 可 


之 。 初 期 ， 


即 可 。 待 解决 了 最 基本 语句 


能 是 难以 想象 的 。 


刀 


i 


日 


句 的 翻译 是 
语句 的 。 


例 5-4 


非常 简 


的 ， 这 里 。 


让 语句 


的 IR 实例 ， 见 表 5-5。 


表 5-5 


了 Pascal 源 程序 


的 问题 ， 


昌 合 实现 源 语言 的 语句 结 


通常 的 解决 方案 就 
只 需 实现 基于 各 种 基本 语句 的 等 价 翻译 
实际 上 ， 基 本 语 


编译 


构 却 是 得 到 


E 可 能 性 的 ， 转 换 工 


三 | 
是 分 


而 治 


笔者 通过 一 个 if 语句 的 实例 来 看 看 编译 器 是 如 何 翻 译 


if 语句 的 IR 实例 


IR 序列 


其 本 


if i>j then 
1:=1] 
else 
js 


这 是 一 个 站 语句 的 IR 实例 ， 读 者 可 以 先 忽略 IR 
量 名 、 标 号 名 可 


能 存在 一 定 的 变化 之 外 ， 粗 


。 如 果 


» | 


省 略 了 else 子 句 ， 则 只 


需 忽略 翻译 


IR 即 可 。 就 


杂 。 实 际 上 ， 


语言 基础 


常 团 


解决 了 基本 语句 的 翻译 之 后 ， 就 得 考虑 各 种 语句 之 间 的 嵌 套 情况 。 根 据 程序 设计 语言 的 
语义 规定 ， 语 名 的 嵌 套 并 不 是 任意 为 之 的 ， 它 必须 满足 
F 何 复杂 的 语句 嵌 套 情况 都 可 以 借 


语法 、 


的 观点 认为 但 


已 Ae 


(MR 4 
(JNT 
(ByteToInt 
(ASSIGN 4 
(JMP 
(LABEL 
(ByteToInt 
(ASSIGN 4 
(LABEL 


,I,J,_T0) 
,_T0,null,_L1) 
,1 ,null,_T3) 
，T3 ,null ,I) 
,LL2 ,null,null) 
,LL1 ,null,null) 
,1 ,null,_T4) 
,_T4,null,J) 
,12 ,null ,null) 


序列 中 的 非 粗 体 代码 。 


本 所 示 的 I 
方案 (黑体 所 示 的 IR 序列 ) 


PE 


本 例 而 言 ， 读 者 可 外 


确 


觉得 


[ 作 。 从 上 例 
E 解 。 


不 难 发 现 ，if 


类 似 地 ， 


从 源 程序 到 IR 的 转换 过 程 似乎 3 
实 如 此 ， 当 问题 规模 很 小 的 时 候 ， 一 些 原本 表面 上 比较 复杂 的 问题 可 能 
就 会 变 得 简单 ， 将 语句 翻译 的 问题 细 化 到 各 个 语句 结构 时 ， 就 可 以 指导 纺 
完成 等 价 转换 的 了 
的 读者 都 可 以 轻松 到 


难 的 ， 详 细 的 翻译 方案 将 在 后 续 章 节 中 逐一 描 


R 结构 正 是 证 语句 的 标 # 


除了 临时 变 
住 翻译 方 
和 2、4 两 行 


没有 想象 中 下 


的 复 


全 


译 器 很 机 械 地 


汕 


|- 绑 


语句 翻译 方案 是 非常 简 


单 的 ， 只 要 稍 


有 


设计 各 和 和 
述 。 


4 


A 


助 于 树 的 形式 加 以 描述 。 确 


的 层次 条 件 。 


基本 语句 结构 的 翻译 方案 并 不 是 


I 象 语法 树 


实 ， 不 得 不 承认 应 
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罗 、 编译 器 设计 之 路 
向 四 


用 抽象 语法 树 可 以 使 语句 翻译 变 得 相对 容易 ， 它 很 好 地 描述 了 语句 、 表 达 式 之 间 的 联系 。 不 
过 ， 由 于 Neo Pascal 并 不 会 显 式 构造 抽象 语法 树 ， 所 以 不 得 不 借助 于 其 他 数据 结构 实现 。 根 
据 先前 的 经 验 ， 栈 结构 就 是 不 二 之 选 。 那 么 ， 就 来 详细 看 看 Neo Pascal 又 是 如 何 实现 这 个 栈 
结构 的 呢 ? 在 Neo Pascal 中 ， 称 其 为 “当前 语句 栈 ”， 声 明 如 下 : 


【声明 5-3】 


stack<Statement> CurrentStatement; 


CurrentStatement: 栈 顶 元 素描 述 的 就 是 当前 《控制 ) 语句 的 相关 信息 。 与 符号 表 不 同 的 
是 CurrentStatement 只 是 一 个 暂 存 结构 ， 而 符号 表 却 是 一 套 贯穿 于 整个 编译 过 程 的 数据 结 
构 。 由 于 各 种 语言 结构 的 不 同 ， 编 译 器 需要 得 到 的 信息 也 不 尽 相 同 。 同 样 ， 也 不 可 能 要 求 
Statement 结构 应 对 各 种 应 用 需要 ， 但 是 仅 针 对 Pascal 语言 来 说 ，Statement 结构 所 描述 的 信 
息 已 经 足以 完成 编译 工作 了 。 读 者 必须 注意 ，Statement 结构 的 功用 并 不 是 承载 语句 语义 ， 而 
是 存储 一 些 与 编译 相关 的 信息 或 者 属性 。 


【声明 5-4】 
struct Statement 
{ 
enum {IF,WHILE,FOR,REPEAT,CASE} m eType; 
struct Labelldx 
{ 
enum LabelType{TrueLabel,FalseLabel,ExitLabel,EntryLabel,CaseLabel} m LabelType; 
OpInfo m Label; 
int m ildx; 
int m_ iConst; 
上 


vector<Labelldx> m_ Labels; 


intm_iLoopVar; 
bool m_bIsDownto; 
bool m_bIsElse; 
OpInfo m_CaseExp; 


m_eType: 用 于 描述 该 语句 结构 的 类 型 。 注 意 ， 这 里 并 不 需要 考虑 那些 不 允许 散 套 的 语 
句 ， 如 break、goto 等 。 虽然 它们 也 可 能 产生 跳 转 ， 但 是 却 不 可 能 出 现 因 组 套 导 致 的 复杂 标 
号 联系 。 根 据 Neo Pascal 语言 的 特点 ， 这 里 只 需 设置 五 个 枚 举 值 即 可 。 

m Labels: 这 是 一 个 标号 列表 ， 用 于 存储 与 当前 语句 相关 的 所 有 标号 信息 。 关 于 
Labelldx 结构 的 解释 ， 笔 者 将 稍 后 给 出 。 

m iLoopVar: 如 果 当 前 语句 是 for 语句 时 ， 则 m_iLoopVar 就 是 指向 循环 变量 的 指针 。 
在 Pascal 语言 中 ， 循 环 变量 对 于 for 语句 是 尤为 重要 的 ， 循 环 变量 的 增 、 减 或 者 比较 运算 # 
没有 显 式 的 表达 式 ， 而 是 隐 含 于 语句 结构 的 语义 中 ， 这 就 需要 编译 器 加 以 识别 处 理 。 然 而 ， 
在 C 语言 中 ， 循 环 变量 的 作用 就 完全 被 for 语句 的 三 个 表达 式 替 代 了 ， 而 这 三 个 表达 式 是 由 
用 户 设计 编写 的 ， 因 此 ， 只 需 将 表达 式 翻 译 成 目标 代码 即 可 。 当 然 ，m_iLoopVar 属性 在 
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case 语句 中 还 有 一 个 特殊 的 作用 ， 待 后 续 章节 中 详 述 。 


m_bIsDownto: 这 是 一 个 标志 属性 。 前 面 ， 读 者 应 该 已 经 了 解 了 Pascal 的 for 语句 与 C 


语言 for 语句 的 区 别 ， 标 准 Pascal 的 for 语句 规定 每 次 循环 完毕 循环 变量 自 增 或 


自 减 1。 而 编 


译 器 则 是 通过 for 语句 中 的 to 或 downto 关键 字 加 以 区 分 。 注 意 ， 在 标准 Pascal 中 ， 并 没有 


循环 步 长 的 概念 ， 唯 一 的 步 长 就 是 1。 而 m_bIsDownto 属性 就 是 
为 自 减 模式 。 

m_bIsElse; 用 于 标识 当前 耻 语 句 是 否 存 在 else 子 句 。 

m _CaseExp: 用 于 存储 一 个 实际 的 操作 数 〈case 表达 式 ) 。 
case 语句 是 非常 重要 的 ， 所 以 有 必要 加 以 记录 。 

下 面 解释 一 下 Labelldx 结构 及 其 各 属性 的 作用 。 


Labelldx: 这 是 一 个 内 髓 结构 类 型 声明 。 根 据 前 面 的 讲述 ， 标 号 信息 是 语句 翻译 过 程 中 
极为 重要 的 元 素 ， 例 如 ， 语 句 结构 的 入 口 标号 、 出 口 标号 等 。 实 际 上 ， 控 于 
就 是 正确 生成 与 管理 各 种 标号 。 下 面 ， 笔 者 详细 分 析 其 中 各 属性 的 含义 。 


于 标识 当前 for 语句 是 否 


于 case 表达 式 对 于 翻译 


m labelType: 这 个 属性 的 作用 是 标识 该 标号 的 类 型 。 根 据 常 见 的 高 级 语言 控 带 
特点 ， 一 般 可 以 将 标号 分 为 如 下 五 种 类 型 : TrueLabel 〈 真 分 支 标 号 ) 、FalseLabel 〈 假 


号 ) 、ExitLabel (出 口 标号 )、EntryLabel (入口 标 号 ) 、CaseLabe 


I a 广 


1 (Case 标号 )。 


| 语句 翻译 的 关键 


文 
中 ， 


构 的 


标 


真 、 假 分 支 标号 主要 是 指标 识 证 语句 真 、 假 分 支 的 标号 。 而 出 、 入 


口 标号 主要 是 指标 识 循环 


结构 出 、 入 口 的 标号 ， 当 然 出 口 标号 也 常见 于 其 他 控制 结构 中 。 严 格 


要 目的 是 为 了 提高 程序 的 可 读 性 。 
m Label: 这 个 属性 用 于 存储 一 个 实际 标号 操作 数 。 
m ifdx: 指向 该 标号 的 指针 。 


区 别 五 种 标号 类 型 的 主 


m _iConst: 这 个 属性 仅 当 所 属 Statement 实例 的 m_eType 的 值 是 CASE( 即 表示 当前 语 
名 是 case 语句 ) 时 才 有 效 。 在 Pascal 语言 中 规定 一 个 case 分 文 只 能 关联 一 个 常量 值 ， 而 不 


m_iConst 就 是 用 于 标识 当前 标号 所 关联 的 常量 值 在 常量 信息 表 中 的 位 序号 。 


总 体 上 来 说 ，Pascal 的 语句 结构 是 比较 精简 的 ， 但 也 是 比较 经 典 的 结构 化 语言 模型 ， 因 


此 ，Pascal 语句 翻译 机 制 的 设计 对 于 其 他 语言 编译 器 设计 是 具有 一 定 指导 意义 的 。 


5.3.2 翻译 辅助 画 数 及 其 实现 


是 一 个 常量 列表 。 通 常 ， 在 翻译 case 语句 时 ， 会 为 每 一 个 case 分 文 分 配 一 个 标号 ， 而 


前 面 介 绍 了 Neo Pascal 语句 翻译 过 程 中 两 个 非常 重要 的 数据 结构 ， 即 Statement 与 


IRCode。 其 中 Statement 是 翻译 过 程 中 的 一 个 辅助 结构 ， 


目的 是 临时 存储 当前 语句 的 翻 


译 信息 。 而 迟 Code 也 就 是 IR 代码 的 基 类 型 ， 在 介绍 三 地 址 代码 时 ， 已 经 作 了 相关 讨论 。 
本 小 节 将 讲述 一 些 翻译 辅助 函数 的 功能 及 其 实现 。 从 表面 上 看 ， 这 些 函数 的 功能 可 能 并 不 
复杂 ， 例 如 ，IR 代码 管理 、 语 句 标 号 生成 等 。 不 过 ， 在 整个 系统 设计 中 ， 它 们 的 地 位 却 


是 极其 重要 的 。 实 际 上 ，Neo Pascal 的 翻译 辅助 函数 并 不 少 ， 这 上 日 


的 函数 予以 分 析 。 
1. IR 生成 函数 


EmitIR 


只 能 选择 部 分 比较 习 


下 王 
王女 


IR 生成 的 工作 将 贯穿 于 整个 语义 处 理 阶段 ， 然 而 由 各 个 语义 子 程序 直接 访问 m_Codes 


列表 可 能 会 大 大 增加 m_Codes 列表 的 管理 成 本 ， 因 此 ， 设 置 IR 生成 函数 的 目的 就 是 为 了 便 
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四 。 编译 器 设计 之 路 
ee 


于 接口 统一 。 当 m _Codes 类 型 或 结构 变化 时 ， 不 至 于 大 费 周 章 地 检查 与 修改 每 一 个 
m_ Codes 的 引用 点 。 下 面 ， 笔 者 就 介绍 一 组 通用 函数 EmittR， 这 是 一 组 参数 重 载 函数 ， 其 功 
能 就 是 将 传 入 的 参数 组 合生 成 一 个 人 民 Code 对 象 返 


加 | 


o 


程序 5-1 CommonLib.cpp 
1 IRCode EmitIR(OpType eOpType,OpInfo Op1,OpInfo Op2,OpInfo Rslt) 
2 {1{ 

3 IRCode Tmp; 

4 Tmp.m eOpType=eOpType; 

5 Tmp.m Opl=Op!l; 

6 Tmp.m Op2=Op2; 

区 Tmp.m Rslt=Rslt; 

8 Tmp.m bEnabled=true; 

9 


return Tmp; 
10 } 
11 IRCode EmitIR(OpType eOpType,OpInfo Op1,OpInfo Rslt) 
I Of{ 
13 IRCode Tmp; 
14 Tmp.m eOpType=eOpType; 
1 Tmp.m Opl=Op!l; 
16 Tmp.m Rslt=Rslt; 
17 Tmp.m bEnabled=true; 
18 return Tmp; 
I } 


20 IRCode EmitIR(OpType eOpType,OpInfo Op1) 
a 1{ 


2 IRCode Tmp; 

23 Tmp.m eOpType=eOpType; 
24 Tmp.m Opl=Op!l; 

2 Tmp.m bEnabled=true; 

26 return Tmp; 

2 } 


函数 的 功能 是 非常 简单 的 ， 笔 者 觉得 关于 源码 的 任何 解释 可 能 都 是 多 余 的。 至 于 三 种 参 
数 重 载 形式 的 目的 也 是 显而易见 的 ， 实 际 上 ， 三 地 址 代码 并 不 一 定 需 要 三 个 完整 的 操作 数 ， 
有 些 操作 符 只 需要 1 一 2 个 操作 数 即 可 。 然 而 ， 在 Neo Pascal 中 ， 并 不 存在 零 操 作 数 的 操作 
符 ， 所 以 并 不 需要 相应 的 参数 重 载 形式 。 

2. 临时 对 象 生 成 函数 

临时 对 象 指 的 就 是 由 编译 器 在 编译 过 程 中 自动 生成 的 标号 、 变 量 、 常 量 等 。 注 意 ， 这 些 
对 象 并 不 一 定 是 透明 的 ， 它 们 在 目标 代码 中 是 可 见 的 。 至 于 为 什么 需要 生成 这 些 临时 对 象 
呢 ? 答案 非常 简单 ， 它 们 是 目标 代码 中 不 可 或 缺 的 元 素 。 例 如 ， 在 翻译 让 语句 时 ， 编 译 器 不 
得 不 为 此 自动 生成 一 些 标号 以 实现 语义 的 等 价 变换 。 当 然 ， 临 时 对 象 还 不 仅 限 于 临时 标号 ， 
可 能 还 包括 一 些 临时 的 变量 、 常 量 等 。 
在 编译 过 程 中 ， 生 成 临时 对 象 是 非常 频繁 的 操作 。 输 入 源 程序 规模 相对 较 大 时 ， 其 编译 
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过 程 中 产生 的 临时 对 象 将 是 一 个 非常 庞大 的 集合 。 由 此 所 付出 的 资源 代价 是 不 能 忽视 的 。 
生成 临时 对 象 可 能 并 不 像 读者 所 想象 的 那样 简单 。 在 生成 临时 对 象 时 ， 任 何 编译 器 都 必 
须 注意 以 下 两 个 问题 : 

(1) 必须 保证 临时 对 象 的 命名 空间 与 用 户 命名 空间 之 间 不 存在 任何 交集 。 这 个 问题 对 于 
像 Pascal、C 语言 等 而 言 ， 并 不 复杂 。 实 际 上 ， 只 需 突破 具体 语言 的 标识 符 定义 规则 即 可 。 
例如 ，C 语言 规定 标识 符 必 须 以 下 画 线 或 字母 开头 ， 那 么 ， 临 时 对 象 的 名 字 就 可 以 以 “大 
或 “*” 开 头 ， 这 样 就 可 以 有 效 避 免 与 用 户 标识 符 的 冲突 。 由 于 临时 对 象 的 名 字 并 不 需要 通 
过 词法 分 析 识 别 ， 所 以 它 可 以 完全 颠覆 词法 分 析 器 对 于 标识 符 的 限制 ， 即 使 将 临时 对 象 命名 
为 以 数字 开头 字符 串 也 是 完全 可 行 的 。 然 而 ， 这 种 命名 规则 却 是 词法 分 析 器 无 法 接受 的 。 

(2) 必须 保证 目标 代码 中 的 临时 对 象 名 字 不 存在 任何 冲突 。 由 于 各 个 语义 子 程序 都 是 离 
散 的 ， 所 以 统一 的 命名 管理 是 必 不 可 少 的 。 通 常 ， 顺 序 种 子 、 长 随机 编码 等 都 是 比较 常见 的 
解决 方案 。 

除了 上 面谈 到 的 两 个 问题 之 外 ， 临 时 对 象 的 声明 过 程 中 还 有 一 项 重要 的 工作 ， 即 登记 符 
号 表 。 对 于 编译 器 而 言 ， 编 译 过 程 中 产生 的 临时 对 象 同 样 需 要 准确 登记 符号 信息 。 实 际 上 ， 
分 析 临 时 对 象 的 符号 信息 并 不 简单 ， 编 译 器 不 可 能 像 分 析 用 户 对 象 一样 从 显 式 声明 中 获取 临 
时 对 象 的 相关 信息 ， 而 只 能 从 输入 源 程 序 的 上 下 文 语义 中 分 析 获 得 。 临 时 标号 、 临 时 常量 的 
言 恩 比较 容易 获取 。 然 而 ， 临 时 变量 则 相对 复杂 ， 其 类 型 信息 只 能 通过 表达 式 运 算 符 的 语义 
加 以 推断 。 
本 小 节 将 介绍 两 类 生成 函数 ， 分 别 是 临时 标号 生成 函数 、 临 时 变量 生成 函数 。 下 面 ， 就 
来 看 看 这 两 类 函数 的 实现 。 


程序 5-2 ”SymbolTbl.cpp 
int CSymbolTbl::GetTmpLabel(int iProcIndex) 
{ 
LabelInfo Tmp; 
Tmp.m iProcIndex=iProcIndex; 


Tmp.m szName.append(GetVarld()); 
Tmp.m_bDe 人 true; 
Tmp.m_bUse=true; 
LabelImfoTblpush_back(Tmp); 

10 return LabelInfoTbl.size()-1; 

we } 


1 
2 
3 
4 
9 Tmp.m szName=" LL"; 
6 
也 
8 
9 


GetTmpLabel 的 主要 功能 就 是 生成 一 个 临时 标号 信息 ， 并 将 其 加 入 标号 信息 表 。 根 据 
Neo Pascal 的 设计 ， 临 时 标号 的 命名 规则 为 “_ 工 X x X”， 其 中 “X Xxx” 表示 一 个 由 编译 器 
顺序 分 配 的 id 号 ， 以 保证 系统 生成 的 标号 名 字 是 唯一 的 。 而 临时 标号 以 ″_ 工 ”开头 的 目的 
就 是 为 了 避免 与 用 户 标号 出 现 重 名 现象 。 当 然 ， 针 对 C 语言 或 者 其 他 语言 ， 这 种 处 理 就 不 可 
行 了 。 

与 临时 标号 生成 函数 相 比 ， 临 时 变量 生成 函数 稍 复 杂 ， 除 了 变量 名 字 等 常规 信息 之 外 ， 
还 需要 考虑 类 型 等 相关 信息 的 生成 。 
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程序 5-3 SymbolTbl.cpp 


1] intCSymbolTbl::GetTmpVar(int iProcIndex,StoreType eStoreType) 
2 1{ 
3 VarInfo Tmp; 
4 Tmp.m iProcIndex=iProcIndex; 
9 Tmp.m iTypeLink=TypeInfoTbl.size(); 
6 Tmp.m szName="_T"; 
7 Tmp.m szName.append(GetVarld()); 
8 Tmp.m eRank=VarInfo::VAR.; 
9 VarInfoTbl.push_ back(Tmp); 
10 TypeInfo TmpType; 
11 TmpType.m szName=" noname"; 
jy TmpType.m szName.append(GetSerialld()); 
13 TmpType.m eDataType=eStoreType; 
14 TmpType.m eBaseType=eStoreType; 
15 TypeInfoTblpush_back(TmpType); 
16 return VarInfoTbl.size()-1; 
WW} 


GetTmpVar 的 主要 功能 就 是 生成 一 个 临时 


变量 信息 ， 并 将 其 加 入 变量 信息 表 。 根 据 Neo 


Pascal 的 设计 ， 临 时 变量 的 命名 规则 为 “TX x x”， 其 中 “x x X? 表 示 一 个 由 编译 器 顺序 


分 配 的 id 号 ， 以 保证 系统 生成 的 变量 名 字 是 叭 


这 里 ， 
应 类 型 的 临时 变量 。 在 实际 应 
需要 一 些 其 他 的 


中 ， 编 译 器 可 能 无 法 准确 
重 载 形式 。 园 于 篇 幅 ， 不 再 详细 分 析 重 载 形式 的 源 代 码 实 现 ， 请 读者 自行 参 
考 Neo Pascal 源 代码 。 当 然 ， 如 何 确定 临时 变量 的 类 型 是 一 个 复杂 的 话题 ， 


的 。 


笔者 给 出 了 GetTmpVar 函数 的 最 基本 实现 ， 根 据 eStoreType 参数 ， 生 成 一 个 相 


fz 


提供 临时 变量 的 类 型 信息 ， 因 此 就 


日 关 


通常 ， 这 是 


型 系统 决策 的 。 关 于 类 型 系统 的 相关 话题 ， 将 在 介绍 表达 式 翻译 时 详细 阐述 ， 此 处 并 不 需 过 


于 关注 临时 变量 的 实际 类 型 。 


5.4 if 语句 


5.4.1 if 语句 的 翻译 
放 语句 是 现代 程序 设计 语言 最 基本 的 语句 结构 之 一 。 从 结构 化 语言 到 面向 对 象 语言 ， 从 
脚本 语言 到 非 过 程式 语言 ， 从 命令 式 语言 到 函数 式 语言 ， 通 常 都 能 见 到 if 语句 的 身影 。 至 
让 语句 的 基本 结构 与 功能 ， 笔 者 觉得 没有 任何 必要 在 此 重复 了 。 
让 语句 的 标准 文法 如 下 : 
【文法 5-2】 
其 他 语句 ~ 证 表达 式 068 then 语句 让 语句 后 部 070 
让 语句 后 部 一 else 069 语句 | & 
从 文法 上 来 看 ，if 语句 的 文法 并 不 复杂 ， 结 构 相 对 也 比较 清晰 。 这 里 ， 一 个 话题 是 值得 
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符 “ 表 达 式 ”。 
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不 难 发 现 ， 文 法 中 存在 非 终结 符 “ 表 达 式 ”。 


结 符 推导 各 种 复杂 的 表达 式 。 当 然 ， 
章 的 核心 论点 。 不 过 ， 由 于 证 语句 的 翻译 将 涉及 其 他 内 容 ， 这 里 不 得 不 作 简 单 说 明 。 


它 也 确实 达到 


的 是 显而易见 的 ， 希 望 通过 这 个 非 终 
一 目标 ， 而 具体 的 实现 细节 


实际 上 ， 表 达 式 翻译 的 实现 是 各 不 相同 的 ， 有 些 表达 式 翻译 借助 于 栈 实 现 ， 而 有 些 表 达 
式 翻 译 可 能 借助 于 抽象 语法 树 实 现 。 前 者 是 比较 常见 的 实现 方案 ， 也 是 一 种 比较 经 典 的 方 


法 ， 其 核心 思想 在 一 些 数据 结构 教材 中 亦 有 和 


能 的 。 在 一 些 特殊 的 应 用 场合 ， 


前 者 的 实现 可 能 3 


关于 利 


j 栈 结构 实现 表达 式 处 理 的 


法 ， 读 者 应 该 j 


的 过 程 与 数据 结构 的 相关 算法 


是 比较 类 似 的 ， 只 是 编 


描述 。 虽 然 这 种 实现 方案 简单 灵活 ， 但 并 不 是 万 
简单 ， 甚 至 会 大 大 增加 实现 的 复杂 度 。 
并 不 陌生 。 编 译 器 应 用 栈 结构 翻译 表达 式 
译 器 并 不 一 定 直 接 将 计算 结果 常量 压 


栈 ， 而 是 可 能 将 产生 的 临时 变量 压 栈 。 这 样 ， 可 以 得 到 一 个 结论 : 编译 器 处 理 完 一 个 表达 式 


所 存储 的 值 就 是 


和 成 为 语句 翻译 的 障碍 。 


表达 式 的 翻译 通常 是 独立 于 语句 翻译 而 存在 的 ， 在 语句 翻译 过 程 中 ， 更 多 时 候 只 是 对 表 


后 ， 栈 顶 元 素 可 能 是 一 个 常量 或 者 变量 。 如 果 栈 顶 元 素 是 常量 ， 则 表示 该 表达 式 的 运算 结 
果 。 如 果 栈 顶 元 素 是 变量 ， 则 意味 着 该 变 
结论 以 后 ， 非 终结 符 “ 表 达 式 ”将 不 


达 式 的 运算 结果 。 理 解 了 这 个 


达 式 的 运算 结果 作 一 定 的 类 型 检查 。 当 然 ， 这 并 不 是 绝对 的 ， 正 如 前 面 所 说 的 ， 某 些 语言 特 


性 可 能 要 求 编译 器 将 表达 式 与 语句 翻译 统一 规划 。 


根据 让 语句 的 语义 ， 可 以 得 到 如 表 5-6 所 示 的 翻译 方案 。 
表 5-6 if 语句 的 翻译 方案 
让 语句 翻译 方案 
让 < 表达 式 > then < 表达 式 翻 译 > 
< 语句 1> (JNT ,< 表达 式 结果 > ,null ，_L1) 
else < 语句 1> 
< 语句 2> (JMP ,_L2 ,null ,null) 
(LABEL ,_L1 ,null,null) 
< 语句 2> 
(LABEL ，_L2 ,null ,null) 


如 果 省 略 了 else 部 分 ， 那 么 只 需 将 翻译 方案 5 


第 4 一 6 行 语句 省 略 ， 并 将 第 7 行 的 


“ L2” 替 换 为 ″ LI1” 即 可 。semantic068、semantic069、semantic070 主要 的 功能 就 是 根据 


翻译 方案 翻译 输入 的 让 语句 。 也 就 是 说 ， 试 图 依靠 这 
语句 的 生成 。 在 上 述 翻 译 方案 
称 为 “出 口 标号 ?”。 另 外 ， 需 注意 一 点 ， 当 输入 语句 
标号 ， 而 应 该 取 假 分 支 标号 ， 因 


应 该 取出 


三 个 语义 子 程序 ， 完 成 翻译 方案 中 黑体 


PF， 可 以 暂且 将 “_L1” 称 为 “ 假 分 支 标号 ”， 而 将 “_L2” 


将 假 分 支 标号 当 作出 口 标号 使 用 。 


5.4.2 源 代码 实现 


semantic068: 


2、 生 成 JNT 语句 ， 目 标 标 号 就 是 


f-then 结构 时 ， 第 7 行 语句 的 标号 不 
为 此 时 并 不 存在 真正 意义 的 假 分 支 ， 因 此 ， 可 以 


在 分 析 源 代码 之 前 ， 笔 者 先 简单 介绍 一 下 各 语义 子 程序 的 功能 ， 以 便 读 者 理解 。 
1、 判 断 表达 式 结果 是 否 为 布尔 类 型 。 


分 支 标号 。 
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semantic069: 


semantic070: 


1、 生 成 JMP 语句 ， 目 标 标号 就 是 出 口 标号 。 
2、 生 成 假 分 支 的 入 口 LABEL 语句 ， 即 翻译 方案 中 的 第 一 个 LABEL 语句 。 
1、 生 成 让 语句 的 出 口 LABEL 语句 ， 即 翻译 方案 中 的 第 二 个 LABEL 语句 。 


下 面 ， 就 来 看 看 让 语句 相关 的 语义 子 程序 。 


程序 5-4 semantic.cpp 


相关 文法 : 


了 
1 


其 他 语句 一 让 表达 式 068 then 语句 让 语句 后 部 070 
bool semantic068() 


if (OpData.empty()) 


{ 


} 


EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
return false; 


OpInfo Tmp=OpData.top(); 
OpData.pop©; 
if (CType::GetOpType(Tmp)!=StoreType::T BOOLEAN) 


{ 


else 


EmitError("IF 语句 判定 表达 式 必须 为 BOOLEAN 类 型 ",TokenList.at(iListPos-1)); 
return false; 


Statement TmpS; 

Statement::Labelldx TmpLblIdx; 

OPpInfo TmpLbl; 

TmpS.m eType=Statement::IF; 

TmpS.m_ blIsElse=false; 

TmpLbl.m iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 

TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::FalseLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

TmpLbl.m iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 

TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::ExitLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

CurrentStatement.push(TmpS); 

SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push_ back(EmitIR( 
OpType::JNT,Tmp,TmpS.GetLabel(Statement::Labelldx::FalseLabel),—1)); 

return true， 


38 } 
39 return true; 
40  } 
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第 3 行 : OpData 栈 就 是 表达 式 翻 译 时 使 用 的 辅助 栈 结构 。if 语句 中 的 条 件 表达 式 的 运 


算 结果 就 是 OpData 的 栈 顶 元 素 。 因 此 ， 程 序 必须 判断 OpData 是 否 为 空 。 


第 10 行 : 这 个 条 件 语句 判断 OpData 栈 顶 元 素 是 否 为 BOOLEAN 类 型 。 在 Pascal 中 ， 这 
语句 的 条 件 表达 式 类 型 必须 为 BOOLEAN 类 型 ， 这 里 的 类 型 检查 是 非常 严格 的 。 
第 17 行 : 声明 一 个 Statement 实例 。 


第 21 行 : 在 翻译 让 


语句 时 ，m_bIsElse 是 非常 有 用 的 。 当 然 ，m_bIsElse 的 缺 省 值 应 该 


是 false， 仪 当 编 译 器 分 析 到 相应 的 else 子 句 时 ， 才 将 该 属性 重 置 为 true。 
第 22 一 26 行 : 生成 一 个 临时 标号 ,并 将 其 设置 为 当前 if 语句 的 假 分 支 标 号 。 实 际 上 ， 在 


任何 编译 器 中 ， 临 时 标号 都 是 静态 的 且 全 局 有 效 的 ， 并 不 是 临时 存在 的 ， 称 其 为 “临时 标 


号 ” 仅 因 为 它 是 编译 过 程 中 由 编译 器 自动 产生 的 而 已 。Neo Pascal 调用 了 SymbolTbl 的 静态 
方法 GetTmpLabel 生成 一 个 临时 标号 ， 其 返回 值 即 为 该 临时 标号 在 标号 信息 表 中 的 位 序号 。 


GetTmpLabel 方法 的 源 程 


序列 表 稍 后 给 出 。 


第 27 行 : m_Labels 是 TmpS 对 象 的 标号 集合 ， 主 要 用 于 存储 当前 语句 相关 的 标号 信 
息 。m_Labels 集合 中 的 标号 不 存在 先后 顺序 。 

第 28 一 33 行 : 主要 的 工作 是 生成 出 口 标号 ， 其 过 程 与 假 分 支 标号 处 理 基本 类 似 。 

第 35 一 36 行 : 生成 JNT 指令 ， 并 将 其 加 入 IR 列表 。 通 常 ，JNT 指令 需要 提供 两 个 操作 


数 ， 即 条 件 变量 《常量 ) 


程序 5-5 semantic.cpp 
相关 文法 : 


及 跳 转 标号 ， 程 序 调用 EmitIR 函数 统一 生成 民 指令 。 


让 语句 后 部 一 else 069 语句 | e 


1 boolsemantic069() 
2 1{ 
3 if (CurrentStatement.empty() || CurrentStatement.top().m eType!=Statement::IF) 
4 { 
5 EmitError("ELSE 子 句 必须 与 下 配合 使 用 ",TokenList.at(GiListPos-1)); 
6 return false; 
7 } 
8 Statement TmpS; 
9 CurrentStatement.top().m_blIsElse=true; 
10 TmpS=CurrentStatement.top(); 
11 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.topO).m_Codes.push_back(EmitIR( 
j 吧 2 OpType::JMP,TmpS.GetLabel(Statement::Labelldx::ExitLabel))); 
8 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push_ back(EmitIR( 
14 OpType::LABEL,TmpS.GetLabel(Statement::Labelldx::FalseLabel}l))); 
15 return true; 
16 | } 
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第 3 行 : 有 效 性 判断 。 实 际 上 ， 语 法 分 析 完 全 有 能 力 保 证 else 子 句 位 置 有 效 性 ， 因 此 。 
这 个 判断 是 可 以 省 略 的 。 

第 9 行 : 设置 m_bIsElse 属性 的 目的 就 是 便于 semantic070 生成 适合 的 出 口 标 号 。 仔 细 
分 析 后 ， 不 难 发 现 ，semantic070 可 能 遇 到 两 种 情景 ， 即 if-then 和 让 then-else 结构 。 针 对 这 
两 种 结构 ，semantic070 生成 的 出 口 标号 是 不 同 的 ， 所 以 需要 明确 地 标识 输入 语句 结构 是 if- 
then 还 是 if-then-else。 

第 11 一 12 行 : 生成 JMP 语句 。 这 个 JMP 语句 的 目标 标号 就 是 让 结构 的 出 口 标号 。 

第 13 一 14 行 : 生成 LABEL 语句 。 这 个 LABEL 语句 的 标号 就 是 让 结构 的 假 分 支 标 号 ， 
即 对 应 翻译 方案 中 的 第 一 个 LABEL 语句 的 “_L1”。 


程序 5-6 semantic.cpp 
相关 文法 : 
其 他 语句 一 这 表达 式 068 then 语句 让 语句 后 部 070 


1 “bool semantic0700) 
2 1{ 
3 if (CurrentStatement.empty() || CurrentStatement.top().m eType!=Statement::IF) 
4 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
Y } 
8 Statement TmpS; 
9 TmpS=CurrentStatement.top(); 
10 if (TmpS.m _ blIsElse) 
11 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back(EmitIR( 
12 OpType::LABEL,TmpS.GetLabel(Statement::Labelldx::ExitLabel)))); 
13 else 
14 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back(EmitIR( 
15 OpType::LABEL,TmpS.GetLabel(Statement::Labelldx::FalseLabel))); 
16 CurrentStatement.pop(); 
17 return true; 
1]8 } 


第 3 行 ， 有 效 性 判断 。 

第 10 行 : 判断 当前 正在 分 析 的 语句 是 否 含 
是 由 semantic069 设置 的 。 

第 11、12 行 : 生成 LABEL 语句 。 当 输入 语句 为 ff-then-else 结构 时 ， 则 LABEL 语句 
的 标号 即 为 让 语句 的 出 口 标号 。 

第 14、15 行 : 生成 LABEL 语句 。 当 输入 i 
号 即 为 让 语 句 的 假 分 支 标号 。 

第 16 行 : 当前 站 语 句 分 析 完 毕 ， 将 CurrentStatement 栈 顶 元 素 弹 出 ， 这 个 步 又 是 非常 重 


过 


else 子 句 。 如 果 是 if-then-else 结构 ， 标 志 


吾 句 为 if-then 结构 时 ， 则 LABEL 语句 的 标 
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5.5 “while/repeat 语句 


5.5.1 while 语句 的 翻译 
while 语句 也 是 程序 设计 语言 的 最 基本 结构 之 一 。Pascal 的 while 语句 的 语义 与 C 语言 完 
全 一 致 ， 这 里 ， 笔 者 不 再 多 作 解 释 了 。 
while 语句 的 标准 文法 如 下 : 
【文法 5-3】 
其 他 语句 一 ”while 071 表达 式 073 do 语句 072 


下 面 ， 先 谈 谈 while 语句 的 翻译 方案 及 其 与 语义 子 程序 的 联系 。 根 据 while 语句 的 语 
义 ， 可 以 得 到 如 表 5-7 所 示 的 翻译 方案 。 


表 5-7 while 语句 的 翻译 方案 


while 语句 翻译 方案 
while < 表达 式 > do (LABEL ,Lil,null,null) 
< 语句 > < 表达 式 翻译 > 
(JNT ,< 表达 式 结果 >,null，L0) 
< 语句 > 
(JMP ,Lil,null,null) 


(LABEL ,LO,nullnull) 


在 翻译 while 语句 时 ， 必 须 注意 两 个 分 支 标号 ， 即 入 口 标号 、 出 口 标号 。 在 表 5-7 的 翻 
译 方案 中 ,可 以 将 “_L1” 称 为 入 口 标号 ,而 将 “_L0” 称 为 出 口 标号 。 由 于 while 语句 的 
翻译 比较 简单 ， 笔 者 就 不 多 作 说 明了 。 


5.5.2 源 代码 实现 
先 简单 介绍 一 下 各 相关 语义 子 程序 的 功能 ， 以 便 读 者 理解 和 阅读 源 代码 。 


semantic071: 1、 生 成 入 口 标 号 语句 ， 即 翻译 方案 中 的 第 一 个 LABEL 语句 。 
semantic073: 1、 判 断 表达 式 的 结果 是 否 为 布尔 类 型 。 

2、 生 成 JNT 语句 ， 目 标 标号 为 出 口 标 号 。 
Semantic072: 1、 生 成 JMP 语句 ， 目 标 标号 为 入 口 标号 。 

2、 生 成 出 口 标 号 语句 ， 即 翻译 方案 中 的 第 二 个 LABEL 语句 。 


下 面 ， 就 来 看 看 while 语句 相关 的 语义 子 程序 。 


程序 5-7 semantic.cpp 

相关 文法 : 

其 他 语句 一 ”while 071 表达 式 073 do 语句 072 
bool semantic071() 


{ 


Statement TmpS; 
Statement::Labelldx TmpLblIdx; 


OO Kp 
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semantic071 的 语义 动作 比较 简单 ， 就 不 有 


OPpInfo TmpLbl; 

TmpS.m_eType=Statement::WHILE; 

TmpLbl.m iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.topO); 

TmpLbllIdx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::ExitLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

TmpLbl.m iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.topO); 

TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::EntryLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back(EmitIR( 
OpType::LABEL,TmpS.GetLabel(Statement::Labelldx::EntryLabel))); 

CurrentStatement.push(TmpS); 

return true， 


了 逐 行 分 析 。 这 里 ， 读 者 应 该 注意 一 个 


while 结构 


要 点 ， 那 就 是 严格 区 别 入 口 标号 与 出 口 标 号 。 相 对 而 言 ，while 结构 比 if 结构 更 容易 
处 理 ， 因 为 并 不 需要 区 别 类 似 于 else 的 子 句 。Pascal 的 while 是 遵循 经 : 
设置 的 ， 当 然 ， 在 某 些 现代 程序 设计 语言 中 ，while 结构 可 能 会 稍 复 杂 ， 读 者 也 应 该 


Ht 
说 


o 


| 


程序 5-8 semantic.cpp 

相关 文法 : 
其 他 语句 一 ”while 071 表达 式 073 do 语句 072 
bool semantic073() 


bo. 


一 一 一 
[= 
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{ 


if (CurrentStatement.empty() || CurrentStatement.top().m eType!=Statement::WHILE) 
{ 
EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
return false; 
} 
if (OpData.empty()) 
{ 
EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
return false; 
} 
OpInfo Tmp=OpData.top(); 
OpData.pop(; 
if (CType::GetOpType(Tmp)!=StoreType::T BOOLEAN) 
{ 


1 
18 
19 
20 
ol 
2 
23 
24 
25 
26 
2 
28 
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EmitError("WHILE 语句 判定 表达 式 必 须 为 BOOLEAN 类 型 ",TokenList.at(iListPos-1)); 
return false; 

} 

else 

{ 
Statement TmpS; 
TmpS=CurrentStatement.top(); 
SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 

OpType::JNT,Tmp,TmpS.GetLabel(Statement::Labelldx::ExitLabe}l))); 
} 
return true; 


-~ 


这 里 ， 读 者 应 注意 有 效 性 检查 ， 主 要 是 判断 表达 式 结果 的 类 型 是 否 为 
ascal 语义 强制 规定 的 ， 不 必 评 说 其 优 和 劣 。 对 于 编译 器 设计 者 ， 这 是 应 当 遵 守 的 设计 


是 P 
准则 。 
程序 5-9 semantic.cpp 
相关 文法 : 
其 他 语句 一 ”while 071 表达 式 073 do 语句 072 
1 boolsemantic073() 
2 1{ 
3 if (CurrentStatement.empty() || CurrentStatement.top().m_eType!=Statement::WHILE) 
4 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
了 } 
8 Statement TmpS; 
9 TmpS=CurrentStatement.top(); 
10 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_Codes.push_ back(EmitIR( 
11 OpType::JMP,TmpS.GetLabel(Statement::Labelldx::EntryLabe}l))); 
12 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
13 OpType::LABEL,TmpS.GetLabel(Statement::Labelldx::ExitLabe}l))); 
14 CurrentStatement.pop(); 
15 return true; 
16 } 


if 语句 翻译 的 语义 子 程序 中 ， 就 不 难得 到 这 一 结论 。 实 际 上 ， 这 种 现象 在 翻译 控 仙 


在 很 多 情况 下 ， 语 句 翻译 的 语义 子 程序 是 存在 一 定 的 相似 的 。 从 while 语句 与 


ds 


结构 时 较为 常见 。 例 如 ，for、while、repeat、if 等 都 存在 一 定 的 雷同 ， 即 使 它们 本 
身 的 语义 存在 着 较 大 的 差异 。 因 此 ， 针 对 这 几 类 控制 结构 的 翻译 ， 笔 者 不 再 对 源 代 


码 进行 逐 行 解释 。 在 理解 了 while 语句 翻译 的 基础 上 ， 相 信 读 者 应 该 可 以 顺利 地 阅 
读 相关 源 代码 。 
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5.5.3 


repeat 语句 的 翻译 


repeat 语句 也 是 程序 设计 语言 的 最 基本 结构 之 


的 do-while 语句 稍 有 不 同 。C 语 言 的 do-while 语句 规定 


/ee 


其 结束 循环 的 条 们 


结果 为 假 〈 即 为 0)， 而 Pascal 的 repeat 语句 规定 其 结 


果 为 真 〈 即 为 true)。 
repeat 语句 的 标准 文法 如 下 : 


。 不 过 ，Pascal 的 repeat 语句 


了 


与 C 语言 


号 


是 循环 表达 式 的 计 
束 循环 的 条 件 是 循环 表达 式 的 计算 结 


【文法 5-4】 
其 他 语句 一 repeat 074 语句 序列 until 表达 式 075 
下 面 ， 先 来 看 看 repeat 语句 的 翻译 方案 及 其 与 语义 子 程序 的 联系 。 根 据 repeat 语句 的 语 
义 ， 可 以 得 到 表 5-8 中 的 翻译 方案 : 
表 5-8 repeat 语句 的 翻译 方案 
repeat 语句 翻译 方案 
Tepeat (LABEL ，_L0:nullnulD 
< 语句 > < 语句 > 
until < 表达 式 > < 表达 式 翻译 > 
(INT < 表达 式 结果 >,null， LL0) 
(LABEL ,Ll,nullnull) 


翻译 repeat 语句 时 ， 必 须 注意 两 个 分 文 标号 ， 即 入 口 标 号 、 出 口 标 号 。 在 翻译 方案 中 
可 以 将 “_L0” 称 为 入 口 标 号 ， 而 将 “_L1” 称 为 出 


标号 。 这 是 


已， 有 读者 可 能 


疑问 : 


标 


号 “ _ Ll” 是否 多 余 ? 当然 不 是 。 虽 然 就 翻译 方案 而 言 ,，“ Ll” 并 未 被 使 用 ， 但 是 ， 必 须 
考虑 循环 结构 中 出 现 break 语句 的 情况 。 实 际 上 ， 通 常 将 break 语句 翻译 为 JMP 指令 ， 其 目 
标 标号 就 是 循环 的 出 口 标号 。 

由 于 repeat 语句 与 while 语句 的 翻译 非常 类 似 ， 这 里 ， 笔 者 就 不 再 详细 给 出 源 代码 列表 


了 ， 请 读者 自行 参考 Neo Pascal 的 实现 。 


[ for 语句 


5.6.1 


for 语句 的 翻译 


Pascal 的 for 语句 与 C 语言 的 for 语句 存在 较 大 差别 。 标 准 Pascal 的 for 仅 作 为 计数 循环 


使 用 ， 所 以 其 语义 限 人 


判 较 多 。 例 如 ， 标 准 Pascal 的 for 语句 仅 允许 使 用 简单 变量 作为 循环 变 


量 ， 不 允许 将 数组 元 素 或 记录 字段 作为 循环 变量 。 其 次 ， 标 准 Pascal 的 for 语句 的 步 长 只 能 
取 1 或 -1。 这 些 差异 是 Pascal 初学 者 值得 注意 的 。 


for 语句 的 标 


【文法 5-5】 
其 他 语句 
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准 文法 如 下 : 


一 > 


for 标识 符 076 := 表达 式 077 for 语句 后 部 
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for 语句 后 部 一 to 表达 式 078 do 语句 079 
一 ”downto 表达 式 080 do 语句 079 


这 里 ， 先 解释 一 下 for 语句 的 特点 : 

(1) 在 标准 for 结构 中 有 两 个 表达 式 ， 通 常 将 前 者 称 为 “循环 初始 表达 式 ” 而 将 后 者 称 
为 “循环 终止 表达 式 ” 这 两 个 表达 式 的 计算 结果 类 型 必须 是 有 序 类 型 。 

(2) 标准 Pascal 规定 for 结构 有 两 种 形式 : 即 forto-do、fordownto-do。 两 种 形式 的 差 
别 就 在 于 其 步 长 不 同 ， 前 者 的 步 长 为 1， 而 后 者 的 步 长 为 -1。 

(3) 标准 Pascal 规定 for 语句 的 循环 变量 不 得 在 循环 体内 改变 其 值 。 不 过 ， 在 Neo 
Pascal 中 ， 并 没有 作 这 一 限制 。 

下 面 ， 再 来 看 看 for 语句 的 翻译 方案 及 其 与 语义 子 程序 的 联系 。 根 据 for 语句 的 语义 ， 
可 以 得 到 如 表 5-9 所 示 的 翻译 方案 : 


表 5-9 for 语句 的 翻译 方案 


for 语句 翻译 方案 
for < 循环 变量 >:=< 表 达 式 1> ”to < 表达 式 2> do < 表达 式 1 翻译 > 
< 语句 > (ASSIGN 4 ,< 表达 式 1 结果 >,null,< 循 环 变 量 >) 

(LABEL ,Llnullnull) 
< 表达 式 2 翻译 > 
(LE_4 ,< 循环 变量 >,< 表 达 式 2 结果 >,_T) 
(JNT ,Tnull,_L0) 
< 语句 > 
(LABEL ,LL2,nullnull) 
(ADD 4 ,< 循环 变量 >,1, < 循环 变量 >) 
(JMP ,Llnullnull) 
(LABEL ,LOnullnull) 

for < 循环 变量 >:=< 表 达 式 1> downto < 表达 式 2> do < 表达 式 1 翻译 > 

< 语句 > (ASSIGN_4 ,< 表达 式 1 结果 >,null,< 循 环 变 量 >) 

(LABEL ,Llnullnull) 
< 表达 式 2 翻译 > 
(ME_4 ,< 循环 变量 >,< 表 达 式 2 结果 >,_T) 
(NT ,Tnull,_L0) 
< 语句 > 
(LABEL ,LL2,nullnull) 
(SUB_4 ,< 循环 变量 >,1, < 循环 变量 >) 
(JMP ,Ll,null,null) 
(LABEL ,LO,null,null) 


翻译 方案 中 “_T” 表 示 一 个 由 编译 器 分 配 的 临时 变量 。 在 翻译 for 语句 时 ， 同 样 需要 注 
意 循环 的 入 口 、 出 口 分 支 的 标号 。 例 如 ， 翻 译 方案 中 的 “ _L1” 就 是 入 口 分 支 的 标号 ， 而 
“_L0” 就 是 出 口 分 支 的 标号 。 男 外 ， 读 者 应 该 注意 for 语句 的 入 口 分 支 标号 的 位 置 ， 根 据 
标准 Pascal 的 语义 ， 入 口 标号 只 能 置 于 循环 初始 表达 式 计算 及 循环 变量 赋 初 值 之 后 。 在 翻译 
方案 中 ,“ _L2” 是 continue 语句 的 目标 标号 。 对 于 continue 语句 而 言 ，for 语句 的 处 理 上 
while、repeat 语句 的 处 理 是 不 同 的 。 在 处 理 for 语句 时 ， 必 须 将 continue 的 目标 标号 置 于 循 
环 变量 修改 之 前 ， 和 否则 与 continue 语句 通用 语义 不 符 。 
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5.6.2 源 代码 


实现 


笔者 先 简单 介绍 一 下 各 语义 子 程序 的 功能 ， 以 便 读 者 理解 和 阅读 源 代 码 。 
semantic076: 1、 检 查 循环 变量 是 否 有 效 。 

2、 生 成 Statement 对 象 。 
semantic077: 1、 生 成 循环 变量 赋 初 值 语句 。 

2、 生 成 入 口 标号 语句 ， 即 翻译 方案 中 的 第 一 个 LABEL 语句 。 
semantic078: 1、 有 效 性 检查 。 

2、 生 成 LE 4 语句 。 

3、 生 成 JNT 语句 ， 目 标 标号 为 出 口 标号 。 
semantic080: 1、 有 效 性 检查 。 

2、 生 成 ME 4 语句 。 

3、JNT 语句 ， 目 标 标 号 为 出 口 标号 。 
semantic079: 1、 生 成 ADD 4/SUB 4 语句 ， 以 改变 循环 变量 。 


2、 生 成 JMP 语句 ， 目 标 标 号 为 入 口 标号 。 
3、 生 成 出 口 标号 语句 ， 即 翻译 方案 中 的 第 二 个 LABEL 语句 。 


下 面 ， 再 来 看 看 for 语句 的 相关 语义 子 程序 的 实现 。 


程序 5-10 semantic.cpp 


相关 文法 : 
其 他 语句 一 ”for 标识 符 076 := 表达 式 077 for 语句 后 部 
1 bool semantic076() 
ol : 
3 string szTmp=TokenList.at(iListPos-1).m szContent; 
4 int i=SymbolTbl.SearchVarInfoTbl(SymbolTbl.ProcStack.top(),szTmp); 
可 if (i==-1) 
6 { 
也 二 SymbolTbl.SearchVarInfoTbl(0,szTmp); 
8 if (i==-1) 
9 { 
10 EmitError(" 循 环 变量 未 定义 ",TokenList.at(iListPos-1)); 
11 return false; 
ll2 } 
13 } 
14 Statement TmpS; 
15 Statement::Labelldx TmpLblldx; 
16 OpInfo TmpLbl; 
17 TmpS.m eType=Statement::FOR; 
18 TmpS.m iLoopVar=i; 
19 TmpLbl.m iType=OpInfo::LABEL; 
20 TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 
21 TmpLblldx.m Label=TmpLbl; 
22 TmpLblldx.m LabelType=Statement::Labelldx::ExitLabel; 
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第 4、5 行 : 检索 当前 过 程 函数 的 变量 信息 表 ， 判 断 循环 变量 是 否 为 局 部 变量 。 
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TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

TmpLbl.m iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 
TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::EntryLabel; 
TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

TmpLbl.m iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 
TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::TrueLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

CurrentStatement.push(TmpS); 


return true; 


上 


第 7、8 行 : 检索 主 函数 的 变量 信息 表 ， 判 断 循环 变量 是 否 为 全 局 变量 。 注 意 ， 


存在 优 》 


AAA 


千 


18 行 : 


第 19~24 行 : 生成 for 语句 的 出 口 标号 。 
第 25 一 29 行 : 生成 for 语句 的 入 口 标号 。 
第 31 一 35 行 : 生成 for 语句 的 continue 目标 标号 。 


程序 5-11 semantic.cpp 
相关 文法 : 
其 他 语句 一 ”for 标识 符 076 := 表达 式 077 for 语句 后 部 
1 bool semantic077() 
之 
3 if (OpData.empty() || CurrentStatement.empty() | 
4 CurrentStatement.top().m_eType!=Statement::FOR) 
5 { 
6 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
7 return false; 
8 } 
9 OpInfo Op1,Rslt; 
10 Op1=OpData.top(); 
11 OPpData.pop(); 
喝 Rslt.m iType=OpInfo::VAR; 
13 Rslt.m iLink=CurrentStatement.topO).m iLoopVar; 
14 if (ICType::IsOrd(Op1) || CType::TypeCompatible(Op1,Rslt,17)==-1) 
15 { 


两 次 检索 


E 级 差别 。 标 准 Pascal 规定 循环 变量 只 能 是 简单 变量 ， 故 不 必 考 虑 复杂 类 型 的 情况 。 
设置 m iLoopVar 属性 。 这 个 属性 的 值 就 是 循环 变量 在 变量 信息 表 中 的 位 序 
号 。 这 个 属性 对 于 for 语句 的 翻译 是 非常 重要 的 。 
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16 
17 
18 
19 
20 
2 
22 
23 
24 } 


EmitError(" 循 环 变量 的 初 值 不 为 有 序 类 型 或 者 类 型 不 兼容 ",TokenList.at(iListPos-1)); 


return false; 


} 


if (IlGenIR(Op1,Rslt,BasicOpType::MOV)) 


return false; 


SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
OpType::LABEL,CurrentStatement.top().GetLabel(Statement::Labelldx::EntryLabe)l))); 


return true; 


第 14 行 : 循环 初 值 表达 式 的 结果 类 型 


调用 了 两 个 函数 来 完成 判断 ， 


必须 为 有 序 类 型 且 与 循环 变量 类 型 兼容 。 这 里 


即 IOrd、TypeCompatible。 这 两 个 函数 是 类 型 系统 的 相关 实 


现 ， 这 里 不 必 深 究 ， 只 需 解 其 基本 功能 即 可 。 


第 19 行 : 生成 循环 变量 赋 


初 值 语 句 。 


这 里 ， 笔 者 调用 GenIR 函数 来 实现 这 一 功能 。 实 


慰 记 读者 和 干 万 不 要 将 循环 变量 赋 初 值 的 问题 想 得 过 于 简单 。 如 果 循 环 初 值 表达 式 的 类 型 与 
循环 变量 的 类 型 是 完全 一 致 的 ， 问 题 可 能 简 


林 单 一些。 不 过 ， 当 两 者 类 型 仅仅 是 兼容 的 ， 则 不 


得 不 考虑 类 型 转换 ， 这 可 能 使 实现 复杂 度 大 大 增加 。 
第 22 行 : 生成 LABEL 指令 
semantic077 中 调用 了 三 个 函数 ， 即 IOrd、TypeCompatible、GenIR。 下 面 ， 笔 者 对 这 三 

个 函数 的 参数 及 功能 作 简 单 介 绍 ， 


【声明 5-5】 
bool CType::IsOrd(OpInfo Op) 


并 不 深究 其 实现 。 


【声明 5 


-6】 


定 限 制 的 。 因 


该 函数 主要 用 于 判断 操作 数 Op 的 类 型 是 否 为 有 序 类 型 。 在 Pascal 语言 中 ， 不 少 语句 、 
表达 式 对 类 型 是 否 有 序 是 有 


是 常量 、 变 量 等 。 在 标准 Pascal 中 ， 关 于 有 序 类 型 有 非常 详细 的 定义 。 


因此 ， 有 序 类 型 的 判断 是 有 现实 意义 的 。Op 可 以 


int CType::TypeCompatible( OpInfo Op1, OpInfo Op2, int Op) 


函数 主要 用 于 判断 


本 合 


时 ， 两 者 是 兼容 的 。 但 如 果 试 图 
就 是 不 兼容 的 。 这 里 ， 参 数 Op 就 是 用 了 
TypeCompatible 允许 传递 的 运算 情景 就 是 运算 符 


两 个 操作 数 《〈 即 Op1、Op2) 的 类 型 是 否 兼容 。 在 类 型 系统 中 ， 讨 
羔 容 通常 是 针对 某 一 运算 而 言 的 。 例 如 ，integer 和 real 类 型 的 变量 进行 比较 运算 
用 real 类 型 


的 变量 为 integer 类 型 的 变量 赋值 时 ， 那 么 ， 两 者 


说 明 两 个 操作 数 所 处 的 运算 情景 。 注 意 ， 


ID“〈 与 词法 分 析 器 中 的 定义 一 致 )。 在 


semantic077 第 14 行 中 ，CType::TypeCompatible(Op1，Rslt，17) 的 作用 就 是 判断 将 Opl 赋 给 


Rslt 时 ， 类 型 是 否 兼 容 。 根 据 词 法 


定 运 算 情 景 下 是 不 


的 ， 至 于 不 同 正 整 数 常量 的 


容 的 。 当 函数 返回 


分 析 器 的 定义 ， 赋 值 运算 符 “:=” 的 ID 就 是 17。 
下 面 解释 一 下 TypeCompatible 函数 返回 值 的 含义 。 当 函 数 返回 -1 时 ， 即 表示 两 者 在 给 


其 他 值 (可 能 是 1、2、3 等 ) 时 ， 则 表示 两 者 是 兼容 
体 含义 将 在 第 6 章 详 述 。 


实际 上 ， 在 类 型 系统 中 ，TypeCompatible 函数 还 存在 几 个 不 同形 式 的 重 载 ， 以 满足 不 同 


的 需要 。 
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这 里 ， 不 再 逐一 列举 。 


【声明 5-7】 
bool GenIR(OpInfo Op1, OpInfo Op2, OpInfo Rslt, BasicOpType Op) 


GenIR 函数 是 一 


中 间 表 示 | 第 5 之 


个 用 于 生成 IR 的 重要 接口 ， 其 主要 功能 就 是 根据 操作 数 类 型 与 相应 的 


语义 生成 所 需 的 豚 。 由 于 IR 操作 数 个 数 的 不 同 ， 所 以 GenIR 函数 也 存在 几 个 不 同形 式 的 重 
以 满足 相应 的 需要 。 那 么 ， 为 什么 要 设计 了 及 生成 接口 呢 ? 


载 ， 

在 
过 程 中 ， 即 
类 型 转换 )、 


IR 指 


高 级 语言 编译 器 中 ， 由 于 类 型 种 类 繁多 ， 这 可 能 使 得 IR 生成 变 得 比较 复杂 。 在 编译 
使 是 在 操作 数 类 型 兼容 《但 不 等 价 ) 的 情况 下 ， 仍 需要 考虑 隐 式 类 型 转换 (强制 


令 选 择 等 问题 。 设 计 GenIR 函数 的 目的 就 是 使 得 语义 子 程序 只 需 关 心 表达 


式 的 语义 及 各 操作 数 的 来 源 ， 而 不 必 关 注 隐 式 类 型 转换 、IR 操作 符 选 择 等 细节 。 
这 里 ， 笔 者 解释 一 下 其 中 的 一 个 参数 一 一 BasicOpType Op。 注 意 ， 这 里 的 Op 并 不 是 人 


的 操作 符 ， 而 只 是 
是 将 Opl 赋 给 Rslt， 至 于 最 终生 成 的 有 下 操作 符 是 ASSIGN_S 还 是 ASSIGN 4 或 者 其 他 操作 
由 传 入 的 操作 数 类 型 与 类 型 系统 决定 的 。 更 多 细节 说 明 请 读者 参考 第 6 章 。 


pa 
十， 


人 
完全 


日 


A 下 


个 描述 运算 情景 的 枚 举 常量 。 例 如 ，BasicOpType::MOYV 就 表示 其 语义 


程序 5-12 semantic.cpp 


相关 文法 : 
for 语句 后 部 一 to 表达 式 078 do 语句 079 
1 bool semantic078() 
2 
3 if (OpData.empty() || CurrentStatement.empty() | 
4 CurrentStatement.top().m_eType!=Statement::FOR) 
5 { 
6 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
有 return false; 
8 } 
9 OpInfo Op2,Op1; 
10 Op2=OpData.top(); 
11 OPpData.pop(); 
轧 Op1.m_iType=OpInfo::VAR; 
13 Opl.m_iLink=CurrentStatement.top(0.m_iLoopVar; 
14 CurrentStatement.top().m_ blIsDownto=false; 
15 int TmpResult=CType::TypeCompatible(Op1,0p2,20); 
16 if (ICType::IsOrd(Op2) || TmpResult—-1) 
17 { 
18 EmitError(" 循 环 变 量 的 终 值 不 为 有 序 类 型 或 者 类 型 不 兼容 ",TokenList.at(iListPos-1)); 
19 return false; 
20 } 
21 OpInfo TmpRslt; 
2 TmpRslt.m iType=OpInfo::VAR; 
23 TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
24 (StoreType)SymbolTbl.TypeSysTbl.at(TmpResult).m iRsltType); 
25 OpVarSemantic(Op1,Op2,TmpRslt,SymbolTbl.TypeSysTbl.at(TmpResult)); 
26 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
27 OpType::JNT,TmpRslt,Current Statement.top().GetLabel( 
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28 Statement::Labelldx::ExitLabel))); 
2 return true; 
30 } 


第 16 行 : 判断 循环 终 值 表达 式 的 结果 是 否 为 有 序 类 型 。 并 且 判 断 在 进行 比较 运算 时 循 


环 终 值 类 型 与 循环 变量 类 型 是 否 兼 容 。 注 意 ，forto-do 结构 的 循环 条 件 是 循环 变量 小 于 或 等 
于 循环 终 值 表 达 式 的 结果 ， 所 以 TypeCompatible(Op1， Op2，20) 中 的 20 就 是 终结 符 “<=” 的 


ID 。 


第 22 一 25 行 : 生成 一 个 临时 变量 ， 将 其 作为 循环 变量 与 终 值 表达 式 比 较 语 名 的 结果 变 


量 ， 并 且 生 成 比较 语句 。 注 意 ， 这 里 调用 了 OpVarSemantic 函数 实现 比较 语句 的 生成 。 在 


此 ， 不 必 深 究 OpVarSemantic 函数 的 实现 ， 只 需 理解 其 功能 与 GenIR 函数 是 类 似 的 即 可 。 


第 26 一 28 行 : 生成 JNT 语句 ， 其 目标 标号 为 循环 的 出 口 标 号 。 


程序 5-13 semantic.cpp 


相关 文法 : 
for 语句 后 部 一 to 表达 式 080 downto 语句 079 
1 bool semantic080() 
2 四 
3 if (OpData.empty() || CurrentStatement.empty() | 
4 CurrentStatement.top().m_eType!=Statement::FOR) 
5 { 
6 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
这 return false; 
8 } 
9 OpInfo Op2,Op1; 
10 Op2=OpData.top(); 
11 OPpData.pop(); 
12 Opl.m iType=OpInfo::VAR; 
13 Opl.m iLink=CurrentStatement.top().m iLoopVar; 
14 CurrentStatement.top().m_ blIsDownto=true; 
15 int TmpResult=CType::TypeCompatible(Op1,0p2,22); 
16 if (ICType::IsOrd(Op2) || TmpResult—-1) 
17 { 
18 EmitError(" 循 环 变量 的 终 值 不 为 有 序 类 型 或 者 类 型 不 兼容 ",TokenList.at(iListPos-1)); 
19 return false; 
20 } 
21 OPpInfo TmpRslt; 
2 TmpRslt.m iType=OpInfo::VAR; 
23 TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
24 (StoreType)SymbolTbl.TypeSysTbl.at(TmpResult).m iRsltType); 
25 OpVarSemantic(Op1,Op2,TmpRslt,SymbolTbl.TypeSysTbl.at(TmpResult)); 
26 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
27 OpType::JNT,TmpRslt,CurrentStatement.top().GetLabel( 
28 Statement::Labelldx::ExitLabel))); 
9 return true; 
30 } 
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中 间 表 示 | 第 5 党 


semantic080 与 semantic078 有 两 个 主要 区 别 : 

(1) 第 14 行 中 m_bIsDownto 属性 的 设置 不 同 。 由 于 两 个 语义 子 程序 所 处 的 文法 不 同 ， 
所 以 该 属性 的 值 是 完全 不 同 的 。 

(2) 第 15 行 中 调用 TypeCompatible 函数 的 传 参 不 同 ， 即 第 三 个 参数 的 值 不 同 。 在 for- 
to-do 结构 中 ， 循 环 条 件 是 循环 变量 的 值 小 于 或 等 于 循环 终止 表达 式 的 结果 ， 所 以 将 终结 符 
“<= ”的 ID(20) 作 为 调用 TypeCompatible 函数 的 实 参 。 而 在 for-downto-do 结构 中 ， 循 环 条 伯 
是 循环 变量 的 值 大 于 或 等 于 循环 终止 表达 式 的 结果 ， 所 以 将 终结 符 “>=” 的 ID(22) 作 为 调用 
TypeCompatible 函数 的 实 参 。 


iT 


程序 5-14 semantic.cpp 


相关 文法 : 
for 语句 后 部 一 ”to 表达 式 080 downto 语句 079 
一 to 表达 式 078 do 语句 079 
1 bool semantic079() 
2 {1 
3 if (CurrentStatement.empty() | CurrentStatement.top().m_eType!=Statement::FOR) 
4 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
7 } 
8 OpInfo Op1,Op2; 
9 Op1l1.m_iType=OpInfo::VAR; 
10 Opl.m iLink=CurrentStatement.top().m iLoopVar; 
11 Op2.m iType=OpInfo::CONST; 
12 Op2.m iLink=SymbolTbl.RecConstTbl("1",3); 
13 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_Codes.push back(EmitIR( 
14 OpType::LABEL,CurrentStatement.top().GetLabel( 
15 Statement::Labelldx::TrueLabe)l))); 
16 if (CurrentStatement.top().m_bIsDownto) 
17 { 
18 if (IGenIR(Op1,Op2,0p1,BasicOpType::SUB)) 
19 return false; 
20 } 
21 else 
2 { 
23 if (IlGenIR(Op1,Op2,O0p1,BasicOpType::ADD)) 
24 return false; 
25 } 
26 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
2 OpType::JMP,CurrentStatement.top().GetLabel( 
28 Statement::LabelIdx::EntryLabel))); 
2 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push_ back(EmitIR( 
30 OpType::LABEL,CurrentStatement.top().GetLabel( 
Bl Statement::Labelldx::ExitLabel))); 
32 CurrentStatement.pop(); 
33 return true; 
34 } 
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编译 器 设计 之 路 


第 13 一 1 行 : 生成 continue 语句 的 目标 标号 。 


第 16 一 25 行 : 根 和 


局 for 的 结构 ， 调 


GenIR 函数 的 第 三 个 参数 。 


第 26 一 28 行 : 生成 JMP 语句 ， 


GenIR 函数 生成 


第 29~31 行 ， 生 成 for 语句 的 出 口 标号 语句 。 


第 32 行 : 当前 语句 分 析 完 毕 ， 
至 此 ， 笔 者 已 经 详细 讲 i 
表达 式 翻 译 的 话题 ， 


所 以 没有 剖析 其 


弹出 CurrentStatement 栈 顶 元 素 ， 以 保证 分 析 的 正确 性 。 


术 了 for 语句 翻译 方案 及 


] 5.7 case 语句 


case 语句 的 翻译 


大 多 数 程序 设计 语言 都 支持 case 或 switch 语句 。 无 论 是 C 语言 的 switch， 还 是 Pascal 


5.7.1 


的 case， 两 者 都 是 作为 多 路 分 支 结 构 存 在 的 。 先 来 看 看 


【文法 5-6】 


与 Ci 


其 他 语句 
case 分 支 
常量 列表 
常量 列表 1 


一 ~ 


一 ~ 


一 > 


一 ~ 


实现 


自 减 或 自 增 1 语句 。 请 注意 传 入 


其 目标 标号 为 循环 入 口 标号 。 


其 实现 。 当然 ， 由 于 其 中 某 些 函 数 涉 及 


四 


他 。 


吾 言 的 switch 语句 相 比 ， 标 准 Pascal 的 case 语句 


Pascal 的 case 语句 文法 。 


case 表达 式 084 of case 分 支 end 089 
常量 列表 087: 语句 088 ;case 分支 | s 
常量 085 常量 列表 1 
,常量 086 常量 列表 1 1s 


要 有 两 个 特点 : 


(1) 除了 “case” 分 支 外 ， 标 准 Pascal 不 支持 包括 “default” 分 支 在 内 的 其 他 任何 形式 


的 分 支 。 不过， 由 于 C 
编译 器 提供 了 “else 


认 是 贯穿 的 。 


了 解 了 case 语句 的 特点 后 ， 就 来 看 看 如 何 翻译 case 语句 。 与 先前 讨 
一 的 。 在 现代 编译 技术 中 ， 有 三 种 比较 成 熟 的 翻译 方案 可 
下 各 翻译 方案 及 其 评价 。 


同 ，case 语句 的 翻译 方案 并 不 是 唯 


供 


选择 


”分 文 


语言 “default“ 分 支 的 应 用 还 是 非常 广泛 的 ， 
于 表示 case 语句 的 默认 分 支 ， 以 满足 用 户 的 需要 。 
(2) 分 支 是 不 允许 贯穿 的 。 而 在 C 语言 中 ， 除 非 显 式 使 用 


即 


。 下 面 简单 介绍 


最 直观 的 翻译 方案 就 是 将 case 结构 转换 成 一 系列 条 件 


最 易于 到 
的 switch 语句 时 ， 


最 后 也 是 应 月 
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因此 ， 有 些 商 


j Pascal 


单 


= 业 


日 的 case 语句 翻译 方案 ， 将 其 扒 


break 语句 ， 和 否则 case 分 支 默 


论 的 语句 结构 不 


跳 转 语句 。 这 


a 
1 力 柔 征地 加 申 、 


LE 解 与 实现 的 。 不 过 ， 该 方案 生成 的 IR 或 者 汇编 代码 不 够 精简 ， 尤 其 是 翻译 C 语言 
可 能 会 产生 许多 元 余 的 跳 转 及 标号 。 

第 二 种 是 散 列 表 方 式 。 散 列表 方式 并 不 是 一 种 通 月 
任意 形式 的 case 语句 的 翻译 并 不 容易 。 散 列表 方式 就 是 通过 构造 一 个 散 列 表 ， 将 分 支 语 句 的 
标号 存储 在 散 列表 内 ， 以 分 支 值 作为 关键 字 进行 检索 。 虽 然 这 是 一 种 比较 高 效 的 实现 方法 ， 
但 是 以 分 文 值 为 关键 字 构造 散 列表 却 并 不 简 
最 广泛 的 一 种 翻译 方案 就 是 
比较 类 似 ， 都 是 通过 构造 分 支 值 与 分 支 标 号 的 关系 ， 以 实现 分 支 跳 转 的 目 


E 广 为 


跳 转 表 。 跳 转 表 方 案 的 基本 思想 与 散 列表 方式 


的 。 然 而 ， 主 要 的 


区 别 在 于 跳 转 表 方案 生成 的 
在 实际 
无 一 例 儿 


。 不 过 ， 各 种 商 


也 是 应 用 跳 转 表 实 现 case 语句 翻译 的 ， 故 本 节 将 着 重 阐述 蜀 


目标 代码 以 顺序 检索 方式 扫 ] 


中 间 表 示 | 第 5 章 


ij 译 器 设计 中 ， 这 种 翻译 方案 的 应 


j 非 常 广泛 ， 


来 看 一 种 应 用 跳 转 表 实 现 的 标准 翻译 方案 ， 见 表 5-10。 


表 5-10 跳 转 表 的 翻译 方案 


措 跳 转 表 ， 匹 配 分 支 值 并 实现 跳 转 。 
包括 Delphi、VC++ 等 商用 编译 器 都 


编译 器 的 具体 的 实现 方案 还 是 存在 一 定 差异 的 。 由 于 Neo Pascal 


kt 转 表 翻 译 方案 的 实现 。 


下 面 ， 就 


case 语句 翻译 方案 
case < 表达 式 > of // 跳 转 表 部 分 
< 常量 1>:< 语 句 1>; GE ,< 表达 式 的 结果 >,< 常 量 1>，LD 
< 常量 2>:< 语 句 2>; GE ,< 表达 式 的 结果 >,< 常 量 2>， 1L2) 
< 常量 n>:< 语 句 n>; (JE ,< 表达 式 的 结果 >,< 常 量 n>，_Ln) 
end; (MP ,_ LO,null,null) 
// 执 行 语句 部 分 
(LABEL ,Llnullnull) 
< 语句 1> 
(JMP ,LO,null,null) 
(LABEL ,LL2,null,null) 
< 语句 2> 
(JMP ,LO,null,null) 
(LABEL ,Lnnull,null) 
< 语句 n> 
(JMP ,LO,null,null) 
//case 语句 的 出 口 标号 
(LABEL ,LO,nullnull) 
注 ， 有 些 书籍 将 case 语句 中 的 < 表达 式 > 称 为 “选择 子 ” 本 书 也 将 沿用 这 个 名 词 。 


关于 跳 转 表 方 式 的 说 明 如 下 : 
(1) 应 用 跳 转 表 处 


易 的 ， 只 需 将 执行 语句 部 分 中 的 JMP 省 略 即 可 。 


(2) 


实现 分 支 跳 转 。 


跳 转 表 的 具体 形式 可 能 存在 差异 。 有 时 ， 跳 转 表 也 使 用 
JZ 指令 描述 跳 转 表 稍 复杂 ， 必 须 将 分 文 值 按 升 〈 降 ) 序 排列 ， 逐 一 应 


(3) 跳 转 表 的 位 置 # 
部 ， 通 常 视 具 体 的 实现 而 定 。 


5.7.2 源 代 码 实 现 


前 
小 节 将 着 眼 于 Neo Pascal 的 实现 。 


部 分 ， 即 跳 转 表 部 分 、 执 行 语句 部 分 。 如 何在 
决 这 个 问题 的 关键 所 在 。 当 然 ， 编 译 器 不 得 


措 述 。 


JZ 或 者 其 他 指令 1 


加 ( 减 〉 运 全 


里 case 分 支 贯 穿 的 问题 (例如 ，C 语言 的 switch 语句 ) 也 是 非常 容 


及 判 


于 跳 转 表 结 构 的 特点 ， 使 得 5 


i 译 器 不 得 不 把 原先 纠结 在 
遍 扫描 过 程 


不 一 定 处 于 执行 语句 体 的 上 部 ， 有 时 可 能 是 处 于 执行 语句 体 的 下 


面 ， 已 经 讨论 了 跳 转 表 的 基本 形式 ， 以 及 如 何 应 用 跳 转 表 实 现 case 语句 的 翻译 。 本 


起 的 case 结构 拆 分 成 两 个 
Pp 完成 整个 case 结构 的 翻译 是 解 
不 借助 于 一 些 外 部 容器 和 暂 存 某 些 重要 的 临时 人 R 
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或 者 符号 ， 以 便 后 续 使 用 。 
case 语句 翻译 的 基本 步骤 如 下 ; 
(1) 在 翻译 case 语句 前 ， 记 录 当 前 IR 的 行 号 。 
(2) 充分 利用 CurrentStatement 的 实例 ， 记 录 case 分 支 值 与 分 支 标号 的 对 应 关系 。 
(3) 在 一 遍 扫 描 过 程 中 ， 只 需 将 执行 语句 部 分 正确 无 误 地 生成 琢 即 可 。 
(4) 在 case 语句 翻译 完毕 后 ， 按 记录 得 到 的 case 分 支 值 与 分 支 标号 的 对 应 关系 生成 跳 
转 表 ， 并 将 其 插入 执行 语句 部 分 之 前 。 
首先 ， 来 看 看 各 语义 子 程序 主要 功能 ， 以 便 读者 理解 和 阅读 源 代码 。 
semantic084: 1、 检 查 选择 子 类 型 是 否 有 效 ， 必 须 为 有 序 类 型 。 
2、 生 成 Statement 对 象 。 
3、 分 配 一 个 出 口 标 号 。 
semantic085: 1、 检 查分 支 常量 与 选择 子 类 型 是 否 兼容 。 检 查分 支 常量 
2、 分 配 一 个 分 支 标 号 。 
3、 建 立 分 支 标号 与 分 支 常量 之 间 的 相应 关系 。 
semantic086: 1、 检 查分 支 常量 与 选择 子 类 型 是 否 风 配 。 检 查分 支 常量 是 否 重 复 定义 。 
2、 建 立 分 文 标号 与 分 支 常量 之 间 的 相应 关系 。 注 意 ， 与 semantic085 的 
区 别 就 是 在 于 semantic086 不 需要 分 配 新 的 分 支 标号 。 
1、 生 成 分 支 标 号 语句 。 
semantic088: 1、 生 成 JMP 语句 ， 目 标 标 号 为 出 口 标号 。 
semantic089: 1、 生 成 出 口 标号 语句 。 
2、 根 据 分 支 标号 与 分 支 常量 的 相应 关系 ， 生 成 跳 转 表 ， 并 将 其 插入 到 
case 语句 相应 IR 序列 的 开始 位 置 。 


个 重复 定义 。 


mu 
ft 


也 | 


semantic087: 


4 


程序 5-15 semantic.cpp 


相关 文法 : 
其 他 语句 一 case 表达 式 084 of case 分 支 end 089 
1 bool semantic084() 
2 | 
3 if (OpData.empty() |!CType::ISOrd(OpData.top(O)) 
4 { 
号 EmitError("CASE 的 选择 子 必须 为 有 序 类 型 ",TokenList.at(iListPos-1)); 
6 return false; 
7 } 
8 OpInfo Tmp,TmpLbl; 
9 Tmp=OpData.top(); 
10 OpData.popO); 
11 Statement TmpS; 
12 TmpS.m eType=Statement::CASE.; 
13 TmpS.m CaseExp=Tmp; 
14 TmpS.m iLoopVar=SymbolTbl.ProcInfoTbl.at( 
15 SymbolTIbl.ProcStack.topO).m_ Codes.size(); 
16 Statement::Labelldx TmpLblldx; 
J TmpLbl.m iType=OpInfo::LABEL; 


194 


18 
19 
20 
21 
22 
2 
24 
2 条 


表 ， 
位 置 


中 间 表 示 | 第 5 之 


TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 
TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::ExitLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpS.m Labels.push back(TmpLblIdx); 

CurrentStatement.push(TmpS); 

return true， 


第 3 行 : 选择 子 类 型 的 有 效 性 判断 。Pascal、C 等 都 规定 选择 子 必须 为 有 序 类 型 。 
第 13 行 : 在 生成 跳 转 表 时 ， 选 择 子 是 必 不 可 少 的 操作 数 ， 所 以 必须 将 其 暂 存 。 


第 14 行 : 记录 当前 IR 的 行 号 。 编 译 器 先 翻译 case 语句 的 执行 语句 部 分 ， 再 生成 跳 转 
并 插入 执行 语句 部 分 之 前 。 因 此 ， 在 正式 翻译 执行 语句 部 分 之 前 ， 必 须 记录 当前 下 的 


， 即 为 以 后 跳 转 表 的 插入 点 。 
第 19 一 25 行 : 生成 case 语句 的 出 口 标号 。 


程序 5-16 semantic.cpp 


相关 文法 : 
常量 列表 ~ ”常量 085 常量 列表 1 
1] bool semantic085() 
2 辆 | 
3 OpInfo Tmp; 
4 Tmp.m_iType=OpInfo::CONST; 
5 Tmp.m iLink=atoi(TokenList.at(iListPos-1).m szContent.c_str()); 
6 if (CurrentStatement.empty() || CurrentStatement.top().m eType!=Statement::CASE) 
了 
8 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
9 return false; 
10 } 
11 过 (CType::TypeCompatible(Tmp,CurrentStatement.top().m_CaseExp,17)==-]) 
]2 { 
13 EmitError("case 子 名 的 常量 与 选择 子 的 类 型 不 匹配 ",TokenList.at(iListPos-1)); 
14 return false; 
15 } 
16 int 1Constl=SymbolTbl.ConstInfoTbl.at(Tmp.m iLink).m iVal; 
17 int 1Const2; 
18 for (int 1=0;i<CurrentStatement.top().m_ Labels.size();i++) 
19 { 
20 if (CurrentStatement.top().m Labels.at(i).m LabelType!= 
21 Statement::Labelldx::CaseLabel) 
2 continue; 
23 iConst2=SymbolTbl.ConstInfoTbl.at(CurrentStatement.top(). 
24 m Labels.at(i).m_iConst).m iVal; 
25 if (iConstl==iConst2) 
26 { 
2 EmitError("case 分 支 常量 重复 定义 ",TokenList.at(iListPos-1)); 
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选择 子 的 类 型 是 否 兼容 ， 因 此 需要 将 分 支 常量 打包 成 OpInfo 对 象 。 
第 11 行 : 调用 TypeCompatible 函数 判断 分 支 常量 与 选择 子 的 类 型 是 否 兼容 。 


第 3 一 4 行 : 获取 分 支 常量 。 由 于 后 续 程 序 将 调用 TypeCompatible 函数 判断 分 支 


return false; 


= 一 


} 

OpInfo TmpLbl; 

Statement::Labelldx TmpLblIdx; 

TmpLblm_iType=OpInfo::LABEL; 

TmpLbl.m iLink=SymbolTbl.GetTmpLabel(SymbolTbl.ProcStack.top()); 
TmpLblldx.m Label=TmpLbl; 

TmpLblldx.m LabelType=Statement::Labelldx::CaseLabel; 

TmpLblldx.m ildx=TmpLbl.m iLink; 

TmpLblldx.m iConst=atoi(TokenList.at(iListPos-1).m szContent.c_str()); 
CurrentStatement.top().m_ Labels.push back(TmpLblIdx); 


return true; 


hy 县 


澡 量 与 


第 17 一 29 行 : 判断 分 支 常量 是 否 存 在 重复 定义 。 在 大 多 数 高 级 语言 中 ， 都 不 允许 类 似 
于 case 的 多 分 支 结 构 中 存在 重 值 分 支 常量 。 这 里 ， 必 须 通过 遍历 已 有 的 分 支 标号 信息 ， 


是 否 存在 分 支 常量 重 值 的 现象 。 注 意 ， 
息 ， 不 需要 也 不 能 够 检 
19 一 20 行 的 判断 是 非常 重要 的 ， 绝 不 容 忽 视 。 


加 


历时 只 需 检查 类 型 为 CaseLabel 的 标号 及 其 术 
查 其 他 类 型 的 标号 ， 否 则 可 能 导致 Neo Pascal 执行 异常 。 因 上 出 


第 32 一 38 行 : 生成 case 语句 的 分 支 标 号 。TmpLblIdx 对 象 就 是 用 于 存储 分 支 标号 与 分 


< 


属性 则 用 于 记录 分 文 种 量 。 


程序 5-17 semantic.cpp 


相关 文法 : 
常量 列表 1 一 ,常量 086 常量 列表 1 
1 bool semantic086() 
2 
3 OpInfo Tmp; 
4 Tmp.m iType=OpInfo::CONST; 
5 Tmp.m iLink=atoi(TokenList.at(iListPos-1).m_ szContent.c_str()); 
6 if (CurrentStatement.empty() || CurrentStatement.top().m_eType!=Statement::CASE) 
加 { 
8 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
9 return false; 
10 } 
11 if (CType::TypeCompatible(Tmp,CurrentStatement.top().m_ CaseExp,17)==-1) 
12 { 
13 EmitError("case 子 句 的 常量 与 选择 子 的 类 型 不 匹配 ",TokenList.at(iListPos-1)); 
14 return false; 
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支 常 量 的 关系 ， 其 中 ，m _ildx 属性 即 表 示 编 译 器 分 配 的 临时 标号 在 标号 信息 表 中 的 位 序号 ， 
而 m_ iConst 
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} 


int iConstl=SymbolTbl.ConstInfoTbl.at(Tmp.m iLink).m iVal; 
int 1Const2; 
for (int i=0;i<CurrentStatement.top().m Labels.size();i++) 
{ 
if (CurrentStatement.top().m_ Labels.at().m LabelType!= 
Statement::Labelldx::CaseLabel) 
continue; 
iConst2=SymbolTbl.ConstInfoTbl.at(CurrentStatement.top(). 
m Labels.at(i).m iConst).m iVal; 
if (iConstl==iConst2) 
{ 


EmitError("case 分 文 常量 重复 定义 ",TokenList.at(iListPos-1)); 
return false; 


1 
于 


Statement::Labelldx TmpLblldx; 
TmpLblldx.m Label=CurrentStatement.top().m Labels.at( 
CurrentStatement.top().m Labels.size()-1).m Label; 

TmpLblIdx.m LabelType=Statement::Labelldx::CaseLabe!l; 

TmpLblIdx.m ildx=CurrentStatement.top().m_ Labels.at( 
CurrentStatement.top().m_ Labels.size()-1).m ildx; 

TmpLblldx.m iConst=atoi(TokenList.at(iListPos-1).m szContent.c_str()); 

CurrentStatement.top().m_ Labels.push back(TmpLblldx); 

return true; 


仔细 分 析 case 语句 的 文法 ， 不 难 发 现 semantic086 主要 用 于 人 处理 一 个 case 分 支 所 属 的 分 


= 


文 节 时 


个 数 大 于 1 的 情况 。 那 么 ， 也 就 不 难 理解 为 什么 semantic086 不 需要 分 配 临 时 标号 


了 ， 这 是 与 semantic085 最 主要 的 差异 。semantic086 将 分 支 常量 与 当前 正在 分 析 的 分 支 标号 


( 即 当前 语句 标号 集中 最 末 的 标号 对 象 ) 关联 。 


程序 5-18 semantic.cpp 


相关 文法 : 
case 分 文 一 ”常量 列表 087: 语句 088 ; case 分 支 

1 bool semantic087() 

多 

3 if (CurrentStatement.empty() || CurrentStatement.top().m eType!=Statement::CASE) 
4 { 

5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 

6 return false; 

2 } 

8 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back( 
9 EmitIR(OpType::LABEL,CurrentStatement.top().m_ Labels.back().m Label)); 
10 return true; 

11 
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以 上 代码 生成 case 分 支 的 LABEL 语句 。 而 这 里 的 分 支 标号 就 是 由 semantic085 分 配 的 。 


程序 5-19 semantic.cpp 


相关 文法 : 
case 分 文 一 常量 列表 087 : 语句 088 ; case 分 支 
1 bool semantic088() 
2 : 
3 if (CurrentStatement.empty() | CurrentStatement.top().m_ eType!=Statement::CASE) 
所 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
2 } 
8 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
9 OpType::JMP,CurrentStatement.top().GetLabel(Statement::Labelldx::ExitLabe}l))); 


10 return true; 
11 } 


由 于 Pascal 的 case 分 支 之 间 是 不 允许 贯穿 的 ， 所 以 当 语 义 子 程序 分 析 完 一 个 case 分 文 
后 ， 必 须 生 成 一 句 跳 转 到 出 口 标号 的 JMP 语句 ， 以 保证 case 分 支 不 被 贯穿 。 


程序 5-20 semantic.cpp 


相关 文法 : 
其 他 语句 志 case 表达 式 084 of case 分 支 end 089 
1 bool semantic089() 
2 
3 if (CurrentStatement.empty() | CurrentStatement.top().m_eType!=Statement::CASE) 
4 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
了 } 
8 OPpInfo Op1,Op2; 
9 Opl=CurrentStatement.top().m_ CaseExp; 
10 int 1OpSize=0; 
11 if (IOpl.m iDetailType.empty()) 
局 iOpSize=SymbolTbl.IypeInfoTbl.at(Op1.m_iDetailType.topO.m_iLink).m_ilSize; 
13 else 
14 iOpSize=SymbolTbl.TIypeInfoTblat(CType::GetRealType(SymbolTbl.VarImfoTbl.at( 
15 Opl.m iLink).m iTypeLink)).m iSize; 
16 if OpSize>4) 
ly { 
18 EmitError("CASE 语句 的 条 件 变 量 必 须 为 有 序 类 型 ",TokenList.at(iListPos-1)); 
19 return false; 
20 } 
21 Op2.m iType=OpInfo::CONST; 
22 vector<IRCode> TmpIRList; 
23 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
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24 OpType::LABEL,CurrentStatement.top().GetLabel( 

2 Statement::Labelldx::ExitLabel))); 

26 for (int i=CurrentStatement.top().m_ Labels.size()-1;i>0;i--) 

2 { 

28 Op2.m iLink=CurrentStatement.top().m Labels.at(i).m_iConst; 

和 29 TmpIRList.push back(EmitIR(OpType(OpType::JE_1+iOpSize/2),Op1,Op2, 
30 CurrentStatement.top().m Labels.at(i).m Labe)l)); 

31 } 

32 TmpIRList.push back(EmitIR(OpType::JMP,CurrentStatement.top().GetLabel( 
33 Statement::Labelldx::ExitLabel))); 

34 Vector<IRCode>::iterator 

35 it=SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_Codes.begin(); 
36 it=it+tCurrentStatement.top().m iLoopVar; 

BN SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_Codes.insert(it, 

38 TmpIRList.begin(),TmpIRList.end()); 

39 CurrentStatement.pop(); 

40 return true; 

41 } 


第 11~15 行 : 在 Neo Pascal 中 ， 有 序 类 型 变量 的 存储 空间 可 以 是 1、2、4 字 节 。 然 
而 ， 根 据 NPIR 的 设计 ， 必 须 依 据 选择 子 的 实际 类 型 生成 不 同 的 正 语句 〈 例 如 ， 正 1、 
JE 2、 正 4)。 因 此 ， 需 要 计算 选择 子 所 占 的 存储 空间 ， 以 便 正 确 生成 合适 的 下 语句 。 这 
里 ， 读 者 不 必 深 究 这 个 证 结构 的 含义 。 

第 16 一 20 行 : 由 于 有 序 类 型 变量 所 占 的 空间 只 外 
判断 。 

第 22 行 : 临时 IR 列表 ， 用 于 和 暂 存 跳 转 表 。 

第 23 一 25 行 : 生成 LABEL 语句 ， 即 case 结构 中 的 出 口 标号 的 LABEL 语句 。 

第 26~31 行 : 遍历 当前 case 语句 的 所 有 分 支 常量 ， 生 成 分 支 跳 转 表 ， 并 将 其 暂 存 于 
TmpIRList 中 。 

第 32 行 : 生成 跳 转 表 表 末 的 JMP 语句 ， 其 目标 标号 就 是 case 语句 的 出 口 标号 ， 以 保证 
跳 转 表 正 常 工作 ， 不 至 于 贯穿 到 执行 语句 部 分 。 

第 35~36 行 : 查找 跳 转 表 的 插入 位 置 ， 并 将 跳 转 表 加 入 原 IR 序列 。 使 用 迭代 器 插入 
时 ， 必 须 注意 顺序 容器 的 插入 特性 。 


] 5.8 其 他 语句 


5.8.1 break、continue 语句 的 翻译 


ISOAEC 7185-1990 标准 (Pascal 语言 标准 ) 并 没有 提供 关于 break、continue 语句 的 任何 
首 述 。 不 过 ， 由 于 这 两 种 语句 结构 确实 为 编程 带 来 了 极 大 的 便利 ， 所 以 得 到 了 程序 员 的 广泛 支 
持 。 因 此 ， 笔 者 参考 了 C 语言 及 Delphi 的 实现 ， 将 break、continue 作为 Neo Pascal 的 标准 语 
句 。Neo Pascal 的 break、continue 语法 、 语 义 与 C 语言 完全 一 致 ， 这 里 就 不 多 作 解 释 了 。 


是 1、2、4 字 节 ， 所 以 必须 作 严 格 


CC 
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在 程序 设计 语言 中 ， 类 似 于 break、continue 的 语句 结构 并 不 少见 ， 例 如 ，Ruby 语言 的 


next、redo 、retry 等 等 。 通 过 使 月 


有 这 类 语句 ， 程 序 员 可 以 方便 地 改变 循环 控制 结构 的 执行 流 
程 。 当 然 ， 除 了 break、continue 之 外 ， 有 些 高 级 语言 还 提供 了 exit、quit 之 类 的 过 程 〈 函 


数 ) 的 出 口语 句 。 这 类 语句 的 文法 结构 比较 简单 ， 所 以 翻译 过 程 也 并 不 复杂 ， 关 键 是 明确 跳 


转 的 目标 标号 。 


实际 上 ， 了 解 C 语言 break、continue 语句 的 读者 应 该 都 明白 这 两 个 结构 的 本 质 就 是 一 


次 无 条 件 跳 转 ， 只 是 跳 转 的 目标 不 同 而 已 。 根 据 C 语言 的 语义 ，break 语句 的 跳 转 目标 是 最 
内 层 循 环 的 出 口 标号 ， 而 continue 语句 的 跳 转 目标 是 最 内 层 循环 的 入 口 标 号 。 当 然 ， 这 并 不 
是 绝对 的 ， 例 如 ，Ada 语言 的 循环 终止 语句 exit 就 允许 程序 员 定 义 欲 跳出 的 循环 名 〈 缺 省 情 


SEE 


地 分 析 与 处 理 。 


况 为 最 内 层 循 环 )。 处 理 这 类 特殊 应 用 时 ， 编 译 器 设计 者 不 得 不 跟踪 输入 程序 循环 的 能 套 情 
况 ， 并 记录 一 些 必要 的 信息 。 在 Neo Pascal 中 ， 笔 者 使 用 CurrentStatement 栈 详 细 记 录 了 各 
吾 句 分 析 的 状况 信息 ， 因 此 ， 即 使 Pascal 存在 类 似 于 Ada 语言 的 exit 结构 ， 也 可 以 比较 方便 


下 面 就 来 看 看 break、continue 语句 的 具体 实现 。 


程序 5-21 semantic.cpp 


相关 文法 : 
其 他 语句 一 break 081 
1 bool semantic081() 
2 
3 Statement* pState; 
4 int i=CurrentStatement.size()-1; 
3 while (i>=0) 
6 { 
色 pState=&CurrentStatement.c.at(i); 
8 if (pState->m eType==Statement::FOR || 
9 pState->m eType=—Statement::WHILE || 
10 pState->m eType—Statement::REPEAT) 
11 break; 
12 i--; 
13 } 
14 if G<0) 
15 < 
16 EmitError("BREAK 语句 只 能 出 现在 FOR、WHILE、REPEAT 语句 块 内 " 
lx ,TokenList.at(iListPos-1)); 
18 return false; 
19 } 
20 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
21 OpType::JMP,pState->GetLabel(Statement::Labelldx::ExitLabel))); 
2 return true; 
23 } 
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第 5~~13 行 : 遍历 CurrentStatement 栈 ， 检 索 最 内 层 循环 。 注 意 ， 最 内 层 循环 并 不 一 定 
是 CurrentStatement 的 栈 顶 元 素 ， 所 以 不 能 依 此 判断 。 在 Pascal 语言 


中 ， 标 准 的 循环 结构 有 


中 间 表 示 | 第 5 之 


三 种 : for、while、repeat。 
第 14 行 : 判断 是 否 检索 到 最 内 层 循环 ， 如 果 检 索 失 败 〈 即 i<0)， 表 示 break 语句 没有 
现在 任何 循环 体内 ， 编 译 器 必须 报错 。 


Ee 


th 


第 20 一 21 行 : 生成 JMP 语句 ， 目 标 标号 就 是 最 内 层 循环 的 出 口 标号 。 


程序 5-22 semantic.cpp 


相关 文法 : 
其 他 语句 一 continue 082 
1 bool semantic082() 
2 1 
3 Statement* pState; 
4 int i=CurrentStatement.size()-1; 
可 while (i>=0) 
6 { 
了 了 pState=&CurrentStatement.c.at(1); 
8 if (pState->m eType==Statement::FOR || 
9 pState->m eType==Statement::WHILE || 
10 pState->m eType==Statement::REPEAT) 
11 break; 
12 i--; 
13 } 
14 if (i<0) 
15 { 
16 EmitError("CONTINUE 语句 只 能 出 现在 FOR、WHILE、REPEAT 语句 块 内 " 
] 了 7 ,TokenList.at(iListPos-1)); 
18 return false; 
19 } 
20 if (pState->m eType==Statement::FOR) 
21 { 
22 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
23 OpType::JMP, pState->GetLabel(Statement::Labelldx::TrueLabel))); 
25 } 
26 else 
2 { 
28 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back(EmitIR( 
29 OpType::JMP pState->GetLabel(Statement::Labelldx::EntryLabel))); 
30 } 
31 return true; 
22 } 


continue 语句 的 处 理 与 break 语句 类 似 ， 主 要 差别 就 在 于 continue 语句 的 目标 标号 。 对 
于 for 语句 而 言 ，continue 语句 的 目标 标号 是 TrueLabel。 然 而 ， 对 于 repeat、while 语句 而 
言 ，continue 语句 的 目标 标号 是 EntryLabel。 


5.8.2 goto 语句 的 翻译 
众所周知 ， 结 构 化 程序 设计 并 不 提倡 使 用 goto 或 类 似 语句 。 不 过 ， 即 便 如 此 ， 包 括 


mm 
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Pascal、C 在 内 的 大 多 数 高 级 语言 都 提供 了 goto 语句 。 只 要 正确 设计 、 合 理应 用 ， 对 于 某 些 


编程 高 手 〈( 尤 其 
越 性 。 
下 面 ， 笔 者 先 来 谈 谈 goto 语句 翻译 的 几 个 重点 。 


是 汇编 


(1) 向 前 跳 转 与 向 后 跳 转 。 通 常 ，goto 语句 的 跳 转 分 为 两 种 情况 : 第 一 种 ， 


位 置 定义 点 在 goto 语句 之 前 ， 也 称 为 “向 前 跳 转 ” 第 二 种 ， 


高 手 ) 而 言 ，goto 语句 还 是 有 着 其 他 控 和 


判 结 构 无 法 比拟 的 灵活 性 与 优 


目标 标号 的 


目标 标号 的 位 置 定义 点 在 goto 
语句 之 后 ， 也 称 为 “向 后 跳 转 ”。 实际 上 ， 对 于 Pascal 而 言 ， 两 者 的 分 析 与 处 理 并 不 存在 差 


异 。 然 而 ，C 语言 编译 器 在 分 析 goto 语句 时 ， 就 必须 严格 区 别 这 两 种 情形 。C 语言 没有 标号 


声明 机 制 ， 在 分 析 向 后 跳 转 的 goto 语句 时 ， 由 于 目标 标号 的 定义 点 位 于 goto 语句 之 后 ， 


编译 器 无 法 获得 目标 标号 的 任何 信息 。 在 这 种 情况 下 ， 编 译 器 又 该 如 何 处 开 


理 方案 都 必须 保证 任何 goto 语句 的 目标 标号 都 是 存在 唯 


定义 点 的 。 基 于 这 个 前 提 ， 


E 呢 ? 无 论 何 种 处 


:记忆 


的 处 理 方案 是 将 目标 标号 登记 到 符号 表 中 ， 


使 


通常 
并 设置 特定 的 标志 用 于 标识 此 标号 存在 引用 点 但 


不 存在 定义 点 。 编 译 器 一 旦 获得 该 标号 的 定义 点 信息 ， 及 时 更 新 该 标识 的 符号 表 信息 即 可 。 
当 编译 器 分 析 完 输入 源 程序 后 ， 必 须 逐 一 检查 符号 表 中 的 标号 信息 ， 判 断 是 否 存在 仅 有 引用 


点 却 没 
也 介绍 了 一 些 其 他 的 处 理 方案 ， 如 回填 链 等 。 


定义 点 的 标号 信息 ， 如 果 存 在 ， 则 给 出 相应 的 出 错 提示 。 当 然 ， 有 些 编译 原 到 


书籍 


(2) 过 程 内 跳 转 与 过 程 间 跳 转 。 这 是 一 个 比较 复杂 的 问题 ， 当 然 ， 函 数 也 存在 同样 的 问 


F 进 行 过程 间 跳 转 。 熟 悉 汇 多 


NE 


经 常 使 
程 间 跳 转 涉 及 一 些 复杂 的 存储 管理 方面 的 问题 ， 
上 的 过 程 间 跳 转 的 。 当 然 ， 


态 分 配 存 储 空 间 的 多 


器 就 可 以 比较 方便 地 实现 过 程 间 跳 转 ， 而 不 需要 付出 太 大 的 代价 。 


下 面 ， 


再 来 看 看 goto 语句 的 相关 语义 子 程序 。 


程序 5-23 semantic.cpp 


相关 文法 : 
其 他 语句 = goto 标识 符 063 
1 bool semantic063() 
2 { 
3 string szTmp=TokenList.at(iListPos-1).m szContent; 
4 int i=SymbolTbl.SearchLabelInfoTbl(SymbolTbl.ProcStack.top(),szTmp); 
3 if (i!=-1) 
6 { 
网 OpInfo Tmp; 
8 Tmp.m iType=OpInfo::LABEL; 
9 Tmp.m iLink=i; 
10 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back( 
11 EmitIR(OpType::JMP,Tmp)); 
12 SymbolTbl.LabelInfoTbl.at(i).m_bUse=true; 
13 return true; 
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题 。 现 代 高 级 语言 对 此 有 比较 严格 的 限制 ， 即 goto 语句 仅 能 用 于 实现 过 程 内 跳 转 ， 而 不 允 
i 语言 的 读者 可 能 会 有 疑惑 ， 有 些 
现 全 空间 跳 转 的 ， 为 什么 goto 语句 只 能 进行 过 程 内 跳 转 呢 ? 这 是 因 
j 静 态 存 储 分 配 机 制 。 而 编译 器 生成 的 目标 代码 更 多 使 用 的 是 栈 式 存 储 分 配 机 制 。 过 
在 一 般 情况 下 ， 编 译 器 是 很 难 实现 真正 意义 
这 也 并 非 完全 不 可 能 的 。 在 早期 ， 有 些 融 


目标 机 的 JMP 指令 是 可 以 实 
为 汇编 语言 程序 设计 中 


i 译 


中 间 表 示 | 第 5 党 


14 } 

15 else 

16 { 

17 EmitError(" 标 号 未 声明 ",TokenList.at(iListPos-1)); /出 错 提 示 
18 return false; 

19 } 

20 return true; 

21 } 


第 5 行 : 在 标号 信息 表 中 ， 检 索 目 标 标号 是 否 已 声明 。 注 意 ， 检 索 范围 仅 限于 本 过 程 
(函数 ) 内 ， 即 使 是 主 程序 中 声明 的 标号 也 不 允许 在 子 过 程 中 被 引用 。Pascal 语言 明确 规定 
标号 定义 或 引用 前 必须 在 声明 部 分 中 给 出 相应 的 说 明 ， 而 C 语言 并 没有 对 应 的 要 求 。 

第 10、11 行 : 生成 JMP 语句 ， 并 设置 目标 标号 。 

第 12 行 : 设置 目标 标号 的 m_bUse 属性 ， 表 示 该 标号 已 经 存在 引用 点 。 

最 后 简单 说 明 一 下 Neo Pascal 如 何 保证 变量 声明 、 定 义 的 有 效 性 。 实 际 上 ， 有 以 下 几 种 
情况 需要 考虑 ， 请 参考 表 5-11 。 


表 5-11 标号 有 效 性 列表 


声明 定义 引 处 理 方式 
泡 光 有 goto 语句 处 理 时 提示 出 错 
无 有 无 定义 标号 时 提示 出 错 
无 有 有 定义 标号 、goto 语句 处 理 时 都 提示 出 错 
有 无 无 Pascal 语言 允许 
有 无 有 全 局 检查 


注意 ， 前 三 种 情况 在 分 析 goto 语句 或 定义 标号 时 都 能 够 识别 与 处 理 。 不 过 ， 由 于 goto 
语句 的 向 后 跳 转 的 情形 ， 使 得 最 后 一 种 检查 不 能 即时 进行 。 在 分 析 完 一 个 输入 源 程序 后 ， 编 
译 器 会 对 标号 信息 表 作 一 次 全 局 分 析 ， 确 定 哪些 标号 仅 有 引用 没有 定义 。 


程序 5-24 semantic.cpp 


相关 文法 : 
程序 > 程序 头 程序 块 002 
1 bool semantic002() 
2 1{ 
3 for (int i=0;i<SymbolTbl.LabelInfoTbl.size();i++) 
4 { 
5 if (SymbolTbl.LabelInfoTbl[il.m szName[0]!=" ' && 
6 !SymbolTbl.LabelInfoTbl[i].m_bDef && 
也 SymbolTbl.LabelInfoTbl[il.m_bUse) 
8 { 
9 EmitError(SymbolTbl.LabelInfoTbl[i].m_szName+" 标 号 未 定义 " 
10 ,TokenList.at(iListPos-1)); 
11 return false; 
12 } 
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13 } 
14 return true; 
15 } 


这 是 整个 语义 分 析 阶 段 最 后 被 调用 的 语义 子 程序 ， 它 的 主要 作用 就 是 检查 是 否 存在 仅 有 
引用 没有 定义 的 标号 。 注 意 ， 编 译 器 分 配 的 临时 标号 是 不 需要 作 检 查 的， 只 需 跳 过 即 可 。 


5.8.3 asm 语句 的 翻译 


asm 语句 的 功能 是 在 Neo Pascal 程序 中 内 内 汇 编 代 码 。 在 实践 中 ， 内 内 汇 编 机 制 也 被 程 
序 员 广 泛 应 用 于 各 种 场合 ， 尤 其 是 系统 、 硬 件 方面 的 开发 。 

内 构 汇 编 的 优点 如 下 : 

(1) 内 风 汇 编 可 以 完成 一 些 高 级 语言 无 法 实现 的 功能 。 

(2) 内 榴 汇 编 可 以 实现 一 些 对 空间 、 时 间 要 求 较 高 的 应 用 。 

(3) 有时， 内 内 汇 编 可 以 简化 实现 的 复杂 程度 。 在 实践 应 用 中 ， 这 种 情况 也 并 不 少见 。 

下 面 ， 就 来 讨论 内 内 汇 编 机 制 是 如 何 实现 的 。 在 现代 编译 技术 中 ， 比 较 常 见 的 实现 方式 
主要 有 如 下 两 种 : 

(1) 将 汇编 语言 的 文法 完全 引入 高 级 语言 文法 中 ， 由 编译 器 统一 进行 词法 、 语 法 、 语 义 
等 分 析 。 实 际 上 ， 这 种 实现 方式 使 得 编译 器 必须 实现 汇编 的 词法 、 语 法 、 语 义 分 析 等 功能 ， 
从 而 增加 编译 器 实现 的 复杂 度 。 不 过 ， 其 优点 在 于 一 些 内 内 汇编 代码 中 的 错误 可 以 尽早 被 发 
现 。 当 然 ， 也 有 利于 一 些 指令 级 的 优化 算法 得 以 进行 。 经 典 的 Turbo Pascal、Delphi 都 是 基 
于 这 种 方式 实现 内 购 汇 编 的 。 

(2) 将 汇编 代码 作为 字符 串 直 接骨 入 目标 代码 中 ， 由 汇编 器 统一 进行 汇编 分 析 。 这 种 方 
式 实现 比较 简单 ， 编 译 器 不 需要 关注 内 髓 汇编 的 具体 代码 ， 只 需 将 其 作为 普通 的 单词 即 可 。 
不 过 ， 这 种 方式 会 使 得 一 些 指令 级 的 优化 算法 失效 ， 也 许 这 就 是 易于 实现 的 代价 吧 。 从 纠 错 
方面 而 言 ， 两 种 方式 的 纠 错 能 力 是 相同 的 ， 仅 有 的 差别 在 于 报错 的 阶段 不 同 而 已 。 著 名 的 
GCC 就 是 基于 这 种 方式 实现 内 骨 汇 编 的 。 同 样 地 ，Neo Pascal 也 是 选择 了 这 种 实现 方式 。 
下 面谈 谈 Neo Pascal 的 内 构 汇 编 机 制 。 一 般 来 说 ， 在 处 理 内 构 汇 编 时 ， 编 译 器 设计 者 关注 
的 是 如 何 实现 内 肉 汇 编 与 输入 源 程序 的 信息 交换 。 当 然 ， 符 号 命名 规则 是 保证 内 骸 汇 编 与 输入 
源 程序 顺利 实现 信息 交换 的 主要 因素 。 换 名 话说 ， 内 内 汇 编 访问 输入 源 程序 中 的 变量 时 ， 只 能 
是 依据 该 符号 的 实际 名 字 〈 即 编译 器 分 配 的 名 字 )， 而 不 是 由 用 户 指定 的 名 字 。 因 此 ， 在 编译 
器 设计 中 ， 用 户 声 明 的 符号 的 实际 命名 并 不 是 完全 随机 的 ， 为 了 便于 内 髓 汇编 的 访问 ， 统 一 的 
命名 规则 是 必 不 可 少 的 。 不 过 ， 出 于 安全 考虑 ， 编 译 器 很 少 允 许 内 骨 汇 编 直 接 根 据 命名 规则 访 
问 用 户 变量 。 因 为 这 种 不 受 限 的 访问 会 给 编译 带 来 很 大 的 不 可 控 性 ， 这 并 不 是 编译 器 设计 者 愿 
意见 到 的 。 笔 者 从 GCC 的 设计 中 得 到 灵感 ， 引 入 了 汇编 参数 的 设计 方案 。 
在 Neo Pascal 中 ， 内 网 汇编 主要 是 由 两 个 部 分 组 成 : 汇编 程序 、 汇 编 参数 。 顾 名 思 义 ， 
汇编 程序 就 是 内 嵌 汇 编 的 主体 程序 段 ， 编 译 器 最 终 会 将 其 稍 作 变 换 后 插入 到 目标 代码 中 。 这 
里 ， 值 得 注意 的 是 汇编 参数 。 汇 编 参数 同样 是 一 个 字符 串 常量 ， 其 主要 作用 就 是 指出 汇编 程 
序 中 访问 的 用 户 变量 。 同 时 ， 内 扰 汇 编程 序 也 就 是 通过 这 个 接口 与 高 级 语言 程序 进行 数据 交 
换 的 。 例 如 : 


rp 


I 
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【声明 5-8】 
VAR 
i, j, k:integer; 
BEGIN 


asm 'mov eax, %0 


mov %1, eax,', 


T@i, WO 
end; 
END. 
注意 ， 第 


第 6 行 的 字符 串 就 是 一 个 ; 


ee 
表示 即 读 又 写 。 而 汇编 程序 贝 


1 通过 
i， 而 “%1” 则 表示 引用 j。 注 意 
格 判定 参数 中 读 写 状 态 与 实际 引用 的 方式 是 否 


用 户 承 担 的 。 注 意 ， 


于 标识 参 


， 由 于 编 


“%X” 的 方式 引 


[L 编 参数 列表 。 在 本 例 中 ， 
数 的 读 写 状态 ， 


| 参数 。 


中 间 表 示 


[2 29 


表示 只 读 ,“w 


在 本 例 中 ， 


译 器 并 不 分 析 


量 
标志 是 具 


程序 5-25 semantic.cpp 
相关 文法 : 


正确 设置 读 写 状态 是 非常 
非常 重要 的 意义 的 。 
下 面 详 细 分 析 内 抱 汇 编 的 相关 实现 。 


章节 的 优化 处 


第 5 章 


一 共有 两 个 参数 ， 即 i 和 


‘gq 32? 


表示 只 写 ， 


“%0” 即 表示 引用 
程序 本 身 的 语义 ， 
一 致 。 因 两 者 不 一 致 而 造成 的 后 果 ， 完 全 是 由 
要 的 ， 在 后 续 


因此 ， 也 不 严 


理 中 ， 这 个 状态 


at(iListPos-1)); 


其 他 语句 一 ”asm 字符 串 常 量 ,字符 串 常量 083 end 
1 bool semantic083() 
2 
3 string szPara=SymbolTbl.ConstInfoTbl[atoi(TokenList.at(iListPos-1) 
4 .m szContent.c_str())].m szName; 
与 string szAsm=SymbolTbl.ConstInfoTbl[atoi(TokenList.at(iListPos-3) 
6 .m szContent.c_str())].m_szName; 
也 string szTmp=""; 
8 int iAsmParaLink=SymbolTbl.AsmParaTbl.size(); 
9 AsmPara TmpAsmPara; 
10 for(int 1=1;i<szPara.length()-1;i++) 
11 { 
12 if (szPara[i|=='@' || szPara[i|=—";" 
lS { 
14 szTmp=trim(szTmp); 
ls if (szTmp.empty()) 
16 { 
17 EmitError(" 内 所 汇编 语句 的 参数 信息 不 正确 ",TokenList 
18 return false; 
19 } 
20 if (szPara[i]=='"@') 
2l { 
22 TmpAsmPara.flag=AsmpPara::N; 
23 
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if (szTmp[0]=='"w') 
TmpAsmPara.flag=AsmPara::W; 

if (szTmp[0]=='a') 
TmpAsmPara.flag=AsmPara::-RW; 

if (szTmp[0]=="r') 
TmpAsmPara.flag=AsmPara::R; 


if (TmpAsmPara.flag==AsmpPara::N) 


{ 
EmitError(" 内 嵌 汇 编 语句 的 参数 读 写 属性 不 正确 " 
,TokenList.at(iListPos-1)); 
return false; 
} 
szTmp=""; 


if (szPara[i|==";') 


szTmp=UpperCase(trim(szTmp)); 
TmpAsmPara.m iLink=SymbolTbl.SearchVarInfoTbl(SymbolTbl 


.ProcStack.top(),szTmp); 
if (TmpAsmPara.m iLink==-1) 
{ 
TmpAsmPara.m iLink=SymbolTbl.SearchVarInfoTbl(0,szTmp); 
if (TmpAsmPara.m iLink==-1) 
{ 
EmitError(" 变 量 "+szTmp+" 不 存在 ",TokenList.at(iListPos-1)); 
return false; 
} 
} 


TmpAsmPara.m szName=szTmp; 
SymbolTbl.AsmParaTbl.push_back(TmpAsmPara); 


一 "1 


SZTIm 


= 一 


else 
szTmp=szTmp+szParalil; 


for (int 1=0;i<szAsm.length();i++) 
{ 

if (szAsml[i]=="'%') 

{ 

计 十 ; 

String szNum; 
while (szAsm[i]<="9 && szAsm[i]>='0) 

szNum=szNum+szAsm[it++]; 
if (szNum.emptyO || 
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70 (iAsmParaLink+atoi(szNum.c_str())>SymbolTbl.AsmParaTbl.size()-1)) 
Wl { 

2 EmitError(" 内 骨 汇 编 参数 引用 不 正确 ",TokenList.at(iListPos-1)); 
73 return false; 

74 } 

75 } 

76 } 

VY OpInfo Op1,Op2,Op3; 

78 Opl.m iType=OpInfo::CONST; 

更 Opl.m iLink=atoi(TokenList.at(iListPos-3).m szContent.c_str()); 

80 Op2.m iType=OpInfo:NONE; 

81 Op2.m ijiLink=iAsmParaLink; 

82 Op3.m iType=OpInfo:NONE; 

83 Op3.m iLink=SymbolTbl.AsmParaTbl.size()-1; 

84 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back( 

85 EmitIR(OpType::ASM,Op1,0p2,0p3)); 

86 return true; 

人 } 


第 3~4 行 : 获取 汇编 参数 字符 串 。 

第 $~6 行 : 获取 汇编 程序 字符 串 。 注 意 ， 汇 编程 序 段 在 前 ， 而 汇编 参数 字符 串 在 后 。 

第 8 行 : AsmParaTbl 是 一 张 全 局 向 量 表 ， 用 于 存储 内 髓 汇编 的 参数 信息 。 当 然 ， 根 据 
它 的 实际 用 途 ， 将 其 理解 为 一 个 辅助 的 数据 结构 可 能 更 合适 。 

第 10 一 60 行 : 分 析 汇 编 参 数字 符 串 。 注 意 ， 这 里 完成 的 工作 主要 包括 : 分 析 读 写 状态 
标志 、 分 析 变 量 。 实 际 上 ， 这 里 的 本 质 就 是 字符 串 处 理 。 根 据 先前 定义 的 汇编 参数 的 格式 ， 
应 该 不 难 理解 。 下 面 ， 笔 者 对 此 作 简 单 分 析 。 

第 20 一 38 行 : 分 析 读 写 状态 标志 。 

第 39~57 行 : 分 析 变 量 信息 。 这 里 主要 有 两 项 工作 需要 完成 : 获取 变量 名 、 变 量 名 的 
有 效 性 检查 。 注 意 ， 在 进行 有 效 性 检查 时 ， 同 样 要 关注 两 级 命名 空间 的 问题 。 

第 61 一 76 行 : 遍历 汇编 程序 ， 判 断 汇编 程序 中 引用 参数 是 否 存在 越界 ， 即 引用 参数 的 
编号 是 否 超 过 汇编 参数 列表 给 出 的 参数 个 数 。 这 里 的 检查 非常 必要 ， 否 则 代码 生成 可 能 会 出 
错 。 值 得 注意 的 是 ， 汇 编 参数 列表 中 的 参数 可 以 不 被 引用 ， 但 越界 引用 却 是 不 允许 的 。 

第 77 一 85 行 : 生成 ASM 指令 。 从 IR 设计 的 角度 来 说 ，ASM 指令 只 有 一 个 操作 数 ， 即 
汇编 程序 的 字符 串 常量 。 不 过 ， 汇 编 参 数 也 是 一 个 非常 重要 的 信息 ， 虽 然 它 可 能 很 难 直接 通 
过 OpInfo 传递 到 后 续 阶段 。 这 里 ， 笔 者 借助 于 操作 数 2、 结 果 操 作 数 的 m_iLink 属性 传递 汇 
编 参 数 信息 。 其 中 ， 操 作 数 2 的 m_iLink 属性 用 于 标识 参数 列表 在 AsmParaTbl 表 中 的 起 始 
位 置 ， 而 结果 操作 数 的 m_iLink 属性 则 用 于 标识 参数 列表 在 AsmParaTbl 表 中 的 结束 位 置 。 
后 续 阶 段 就 可 以 通过 这 两 种 属性 访问 汇编 参数 信息 了 。 注 意 ， 这 里 只 是 借助 于 这 两 个 操作 数 
而 已 ， 但 它们 本 身 并 不 是 作为 真正 的 操作 数 存 在 于 人 R 中 ， 因 此 ， 笔 者 将 两 个 操作 数 的 
m_iType 属性 都 设置 为 OpInfo::NONE， 以 免 给 后 续 处 理 带 来 不 便 。 

至 此 ， 笔 者 已 经 详细 阐述 了 语句 翻译 的 理论 与 实现 ， 这 是 下 生成 的 核心 部 分 之 一 。 
句 翻 译 的 重点 就 是 建立 翻译 方案 与 语义 子 程序 之 间 的 联系 ， 因 此 ， 设 计 翻译 方案 将 是 极其 


贞 首 


207 


编译 器 设计 之 路 


2 


要 的 。 在 第 6 章 中 ， 笔 者 将 揭示 IR 生成 的 另 一 个 重要 部 分 一 一 表达 式 翻 译 。 其 中 ， 将 涉及 
类 型 系统 、 数 组 计算 、 指 针 引 用 等 复杂 而 有 趣 的 话题 。 


Ee 深入 学 习 


本 章 讨 论 的 重点 就 是 下， 因此 ， 有 必要 推荐 几 种 经 典 的 及， 供 读者 参考 学 习 。 

Java 的 字 节 码 是 近 几 年 比较 流行 的 一 种 IR 形式 ， 有 兴趣 的 读者 可 以 参考 相关 资料 。 

“ 鲸 书 ” 第 4 章 也 提出 了 一 种 不 错 的 IR 形式 ， 并 进行 了 详细 的 阐述 。 

RTL 是 GCC 的 琢 形式 ，GCC 内 核 白 皮 书 对 此 有 详细 的 解释 。 

MSIL 是 .Net 的 一 种 及 形式 ， 也 是 近 几 年 来 比较 流行 的 一 种 低级 语言 ， 是 渴望 了 解 与 学 
习 .Net 内 核 的 读者 的 必 备 知识 。 

UNCOL 是 一 种 诞生 于 20 世纪 50 年 代 中 期 的 通用 I 人 R 形式 ， 在 《The problem of 
programming communication with changing machines: a proposed solution》 一 文中 最 先 提 到 了 
UNCOL 的 概念 。 

lcc 的 DAG 也 是 一 种 非常 经 典 的 IR 形式 , 《可 变 目标 C 编译 器 一 一 设计 与 实现 》 一 书 对 
此 有 详尽 说 明 。 

SunIR 是 Sun 为 SPARCE 提供 的 C、C++、Fortran、Pascal 等 编译 器 的 一 种 前 端 及 形式 。 

C 一 也 是 目前 比较 流行 的 一 种 前 端 IR 形式 ， 是 一 种 比 C 语言 更 低级 的 形式 ， 当 然 ， 它 
仍然 是 符合 C 语言 标准 的 ， 这 是 C-- 的 最 大 优势 。 这 种 IR 形式 可 以 被 编译 成 可 执行 文件 ， 


更 有 利于 前 端 调试 与 验证 。 
1、Java intermediate bytecodes James Gosling 
说 明 : 本 文 是 关于 Java 字 节 码 最 权威 的 资料 ， Sun 微 系统 实验 室 的 James Gosling 于 1995 撰写 的 。 


2、GNU Compiler Collection Internals 
说 明 : 这 是 关于 GCC 内 核 最 权威 的 资料 ， 其 中 ， 详 细 描 述 了 RTL 的 话题 ， 读 者 可 以 访问 http://gcc.gnu.org/onlinedocs/gccint/。 
3、Microsoft .NET 开 汇编 语言 程序 设计 Serge Lidin 机 械 工 业 出 版 社 
说 明 : 这 是 目前 可 以 见 到 的 唯一 一 本 关于 MSIL 的 书 ， 不 过 ， 由 于 成 书 较 早 ， 涉 及 的 内 容 与 微软 最 新 的 技术 有 一 定 差距 。 
4、The problem ofprogramming communication with changing machines: a proposed solution 

说 明 : 最 先 提出 了 IR 设计 的 思想 与 UNCOL 的 提议 。 

5、 可 变 目 标 C 编译 器 设计 与 实现 Christopher W. Fraser, David R. Hanson 电子 工业 出 版 社 
说 明 : 该 书 所 描述 的 lcc 是 一 个 值得 读者 深入 学 习 的 实例 系统 ， 它 的 很 多 设计 思想 被 广泛 应 用 于 许多 相关 领域 ， 如 操作 系统 


6、 高 级 编译 器 设计 与 实现 Steven S. Muchnick 机 械 工 业 出 版 社 
说 明 : 该 书 第 4 章 给 出 了 一 种 有 效 的 MIR 形式 ， 而 第 21 章 中 详细 描述 了 SunIR。 


7、C-- specification (Version 2) 
说 明 : 这 是 C-- 语 言 的 参考 手册 ， 读 者 可 以 访问 http:/www.cminusminus.org/， 以 获得 C-- 的 更 多 资料 。 


六 5.10 ”实践 与 思 


请 结合 本 章 提 到 的 几 种 IR 形式 ， 试 分 析 与 评价 NPIR 的 优 缺 点 ， 并 思考 改进 的 方案 。 
2. Neo Pascal 并 不 显 式 构造 语法 树 ， 如 果 需 要 显 式 构 造 与 输出 语法 树 ， 试 问 该 如 何 
修改 ? 
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3. 实际 上 ， 将 一 种 高 级 语言 程序 编译 为 男 一 种 高 级 语言 程序 的 应 用 并 不 罕见 ， 其 中 ， 
最 著名 的 就 是 CH+， 最 早 的 C++ 编译 器 的 目标 代码 就 是 C 语言 。 如 果 需 要 将 Neo Pascal 的 目 
标 代码 改 为 C 语言 ， 那 么 ， 该 如 何 修改 与 完善 ? 


5.11 大 师 风 采 一 一 Kenneth E. lverson 


Kenneth Eugene lverson: 加 拿 大 计算 机 科学 家 ，APL 语言 创始 人 之 一 。1920 年 12 月 
17 日 出 生 于 加 拿 大 Camrose 的 一 个 农民 家 庭 。 少 年 时 期 ，Iverson 就 酷爱 数学 ， 自 学 微 积 
分 。 二 战 后 ， 他 进入 了 皇后 大 学 (Queen's University ) 主 修 数学 与 物理 ， 并 于 1950 年 获得 学 
士 学 位 。1951 年 ，Iverson 获得 了 哈佛 大 学 数学 硕士 学 位 。1954 年 ，Iverson 又 获得 了 哈佛 大 
学 应 用 数学 博士 学 位 ， 毕 业 后 留 校 5 年 任 助理 教授 。 

1960 年 ，Iverson 进入 IBM 公司 从 事 基于 IBM 360 的 程序 设计 语言 开发 。1980 年 ， 他 
离开 IBM 公司 ， 进 入 加 拿 大 的 工 P Sharp Associates 从 事 APL 语言 的 设计 与 开发 ， 直 到 1987 
年 退休 。 

1989 年 夏天 ，Iverson 与 Roger Hui、Arthur Whitney 开始 着 手 丁 语言 的 设计 与 实现 ， 其 
原型 就 是 APL。 在 以 后 的 15 年 中 ，Iverson 与 Roger Hui 一 直 致 力 于 丁 语言 的 研究 。Iverson 
于 2004 年 去 世 。 

Iverson 是 1979 年 图 灵 奖 获得 者 。 
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第 6 章 


表达 式 语义 


Actually I made up the term “object-oriented”, and I can tell you I did not have C++ in mind. 


人 表达 式 概 述 


—Alan Curtis Kay 


表达 式 是 程序 设计 语言 的 一 个 重要 组 成 部 分 ， 包 括 汇编 语言 在 内 的 绝 大 多 数 语言 都 引入 
了 表达 式 的 概念 。 通 常 ， 表 达 式 主要 由 两 个 部 分 组 成 ， 即 操作 数 与 运算 符 。 有 些 读 者 可 能 会 


认为 一 门 语言 的 运算 符 个 数 也 是 非常 有 限 的 ， 
解 。 不 过 ， 不 能 忽略 一 个 重要 的 元 素 一 一 类 型 系统 。 当 类 型 系统 被 引入 表达 式 之 后 ， 很 多 看 


日 


不 难 理 


因此 ， 仪 从 语义 角度 而 言 ， 表 达 式 3 


似 简 单 的 问题 可 能 会 变 
如 ，Pascal 表达 式 it4 中 的 加 法 运 
的 实际 类 型 ， 加 法 运算 符 至 少 可 能 存在 两 
法 。 对 于 编译 器 设计 者 而 言 ， 仅 仅 回 
语义 。 在 上 例 


| 的 


深交 
同 ， 


可 


一 般 很 少 理会 隐 式 转换 机 人 
有 译 器 代劳 的 。 程 序 员 可 
本 章 将 从 类 
新 认识 表达 式 。 下 面 ， 


工作 是 | 
换 的 情 
的 视角 重 


用 


必 。 


J 能 会 得 到 更 多 关于 加 法 运算 


4h 目 


性 


异常 复杂 ， 尤 其 是 


名 


试图 借助 了 系统 实现 相关 功能 时 。 例 


符 的 精确 语义 是 什么 


一 个 软 人 
E? 这 个 问题 并 不 好 回答 ， 根 据 i 
法 、 有 符号 整数 加 


不 同 的 语义 ， 即 无 符号 整数 加 符号 


PF， 如 果 考 虑 语言 的 i 


A 全 


们 


答 这 个 
半 纪 
的 语义 理 


运算 符 为 加 号 是 远 远 不 够 的 。 通 常 ， 需 要 了 解 更 
4， 由 于 各 种 数据 类 型 的 存储 空间 不 


解 


运算 都 存在 类 型 转换 。 不 过 ， 其 中 只 有 很 小 一 部 分 转换 
的 ， 大 多 数 转换 都 是 隐 


入 晶 


式 的 ， 完 全 


:编译 器 自动 分 析 完 成 的 。 不 过 ， 在 编程 过 程 中 ， 


四 数据 类 型 ， 
。 理 论 上 讲 ， 两 种 不 同类 型 数据 之 间 的 加 法 
显 式 的 ， 即 需要 程序 员 编 码 完 成 


E 
程序 员 


中 


LE 


~ 


t 至 有 时 根本 


能 很 难 


型 入 手 ， 


< 


简单 谈 谈 本 


行 表达 式 的 翻译 。 


(1) 类 型 系统 。 这 是 表达 式 翻译 的 核心 ， 没 有 设计 相对 精良 的 类 型 
笔者 将 从 类 型 描述 、 


类 型 


想象 如 曙 
寸 论 几 个 与 表达 式 分 析 相 关 的 话题 ， 引 


起 
没有 意识 到 隐 式 转换 的 存在 ， 因 为 有 太 多 太 多 的 
S 达 式 都 是 需要 显 式 完成 类 型 转 


导读 者 从 编译 器 设计 


二 大 
扫 写 每 个 


章 将 涉及 的 几 个 核心 问题 : 


系统， 就 绝对 无 法 ; 
等 价 、 类 型 相 容 、 类 型 转换 等 方面 前 述 编译 器 类 


型 系统 的 设计 ， 并 说 


介绍 Neo Pascal 的 相 


(2) 数组 、 结 构 、 


指针 等 复杂 变量 的 寻 


寻 址 翻译 。 在 翻译 表达 式 之 前 ， 编 译 器 必须 


IR 是 无 法 得 到 的 。 简 单 变量 的 寻 址 是 比较 
比较 困难 了 。 当 然 ， 更 为 复杂 的 就 是 这 些 元 素 的 舱 套 使 用 ， 如 何 


器 设计 者 必须 关注 的 。 


关 设 计 思 想 与 实现 。 
址 。 实 际 上 ， 这 个 问题 的 本 质 就 是 讨论 操作 数 的 
得 到 所 需 的 操作 数 寻 址 的 相关 蕉 ， 否 则 表达 式 的 


AN 


WR 


易 的 ， 而 数组 、 结 构 、 指 针 等 复杂 变量 的 寻 址 就 


(3) 常量 的 计算 。 


实际 上 ， 这 是 一 个 优化 方面 的 技术 《〈 即 常量 折 登 )， 但 是 并 


正确 无 误 地 生成 IR 是 编译 


“意味 着 


语义 分 析 阶 段 就 不 必 弄 
式 直 接 由 多 
个 操作 数 者 


"是 
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会 了 。 常 


量 折 和 登 的 } 


相 是 


i 译 器 计算 得 到 相应 的 结果 ， 以 备 后 用 。 例 如 ， 表 达 式 i=5+3， 上 由 


Cn 


很 简单 的 ， 它 试图 将 操作 数 皆 为 常 
于 加 法 运 


了 且 


ANXE 


:常量 ， 所 以 5+3 的 计算 就 可 以 由 编译 器 完成 ， 并 不 需要 生成 相应 的 加 法 IR， 
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而 是 直接 翻译 为 =8 相应 的 IR 语句 即 可 。 当 然 ， 读 者 同样 不 要 小 遍 常 量 折 登 。 由 于 类 型 系 
统 的 存在 ， 要 完成 真正 意义 上 的 常量 折 肝 是 有 些 难 度 。 

(4) 表达 式 翻译 。 最 后 ， 就 是 如 何 正 确 理解 与 翻译 表达 式 了 。 读 者 可 能 立刻 会 联想 到 繁 
复 的 运算 符 优 先 级 ， 难 道 这 是 表达 式 翻译 的 核心 吗 ? 答案 是 否定 的 。 虽然， 每 位 C 程序 员 曾 
几何 时 必定 都 被 C 语言 的 15 级 运算 优先 级 折磨 得 苦 不 堪 言 ， 但 是 ， 运 算 符 优先 级 却 不 是 表 
达 式 翻译 所 关注 的 。 甚 至 读者 会 发 现 表 达 式 翻译 时 对 其 根本 不 需要 关注 ， 这 是 非常 神奇 的 。 
当然 ， 在 使 用 递归 下 降 分 析 法 时 ， 有 时 会 利用 运算 优先 级 来 简化 程序 设计 ， 那 是 一 种 非常 精 
巧 的 设计 结构 。 有 兴趣 的 读者 可 以 参考 Icc 的 实现 。 这 里 就 不 再 深入 讨论 了 。 


| 6.2 ”类 型 系统 基础 


6.2.1 类 型 基础 


有 程序 设计 经 验 的 读者 应 该 对 类 型 并 不 陌生 ， 类 型 已 经 成 为 高 级 语言 的 基本 组 成 元 素 之 

。 即 便 如 此 ， 学 界 关 于 类 型 的 定义 却 是 存在 一 定 分 歧 的 ， 笔 者 在 此 只 能 给 出 一 个 比较 普遍 
的 观点 。 在 大 多 数 程序 设计 语言 中 ， 每 一 个 数据 值 通常 都 关联 一 系列 的 性 质 ， 而 这 样 的 一 系 
列 性 质 就 是 这 个 值 的 类 型 。 类 型 描述 的 就 是 基于 该 类 型 的 数据 值 所 共有 的 一 组 性 质 。 例 如 ， 
integer 类 型 的 数据 必定 在 [-2”*，2”1] 范围 内 取 值 ， 而 char 类 型 的 数据 必定 在 [0，255] 内 
取 值 。 而 程序 设计 语言 中 的 类 型 可 以 分 为 两 类 ， 即 基本 类 型 和 复杂 类 型 。 基 本 类 型 指 的 就 是 
程序 设计 语言 预定 义 的 、 不 可 再 分 割 的 类 型 ， 如 integer、char、real 等 ， 有 时 也 称 为 “原子 类 
型 >。 而 复杂 类 型 通常 指 的 是 由 程序 员 基 于 基本 类 型 复合 构造 而 成 的 类 型 ， 如 记录 类 型 、 数 
组 类 型 等 ， 有 时 也 称 为 “复合 类 型 ”或 “构造 类 型 ” 

通俗 地 讲 ， 程 序 设计 语言 中 的 类 型 系统 指 的 就 是 语言 的 类 型 集合 及 其 描述 程序 行为 的 规 
则 。 从 程序 设计 语言 的 观点 而 言 ， 引 入 类 型 系统 的 目的 就 是 便于 在 语义 层次 上 更 精准 地 描述 
程序 的 动作 行为 。 从 编译 器 的 观点 而 言 ， 引 入 类 型 系统 的 主要 目的 就 是 尽 可 能 保证 程序 运行 
的 安全 。 
在 程序 设计 语言 中 ， 不 同 运 算 符 对 于 其 运算 对 象 的 类 型 是 有 一 定 要 求 的 。 当 然 ， 这 个 标 
准 并 不 统一 ， 有 些 语言 可 能 比较 宽松 ， 而 有 些 语言 就 比较 严格 。 对 于 不 满足 要 求 的 表达 式 ， 
通常 应 该 报告 出 错 或 警告 信息 ， 否 则 是 不 安全 的 。 通 常 ， 在 这 种 情况 下 ， 很 难 预测 将 会 发 生 
什么 样 的 情况 ， 甚 至 可 能 威胁 到 操作 系统 的 稳定 性 。 在 编译 器 设计 中 ， 严 格 的 类 型 检查 是 必 
不 可 少 的 。 实 际 上 ， 所 谓 类 型 检查 就 是 基于 类 型 系统 进行 的 一 个 处 理 过 程 ， 其 目的 就 是 保证 
每 个 操作 或 运算 都 是 针对 一 组 数目 正确 、 类 型 合适 的 元 素 进 行 的 ， 从 而 保证 了 目标 程序 安 
全 、 有 效 地 执行 。 类 型 检查 是 编译 器 的 一 个 重要 组 成 部 分 。 

根据 检查 的 时 刻 不 同 ， 类 型 检查 一 般 分 为 两 类 : 静态 类 型 检查 、 动 态 类 型 检查 。 

静态 类 型 检查 指 的 是 由 编译 器 在 编译 过 程 中 完成 的 类 型 检查 。 

动态 类 型 检查 指 的 是 在 目标 代码 中 插入 相应 的 类 型 检查 子 程序 ， 以 便 在 目标 程序 运行 时 
进行 各 种 类 型 检查 。 

从 理论 上 来 说 ， 在 不 考虑 效率 及 资源 的 情况 下 ， 只 要 目标 代码 中 存在 足够 的 类 型 信息 ， 
动态 类 型 检查 可 以 实现 一 切 类 型 检查 ， 而 静态 类 型 检查 则 不 然 。 例 如 ， 通 用 的 数组 越界 检 
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查 、 子 界 类 型 赋值 合法 性 等 问题 是 无 法 实现 静态 检查 的 。 不 过 ， 程 序 设计 语言 的 绝 大 多 数 类 
型 相关 错误 都 可 以 由 静态 检查 发 现 。 

最 后 ， 笔 者 需要 说 明 一 点 : 本 章 仅 讨论 了 类 型 系统 中 最 基础 的 部 分 。 事 实 上 ， 程 序 设计 
语言 的 类 型 系统 是 一 个 非常 深奥 的 话题 ， 包 括 许 多 复杂 的 理论 。 目 前 ， 国 内 类 型 系统 领域 的 
研究 还 处 于 基础 阶段 ， 对 于 有 志 于 研究 程序 设计 语言 的 读者 而 言 ， 类 型 系统 理论 的 重要 性 不 
言 而 喻 。 


6.2.2 ”类 型 系统 


现代 程序 设计 语言 的 类 型 系统 通常 包括 如 下 四 个 部 分 : 基本 类 型 、 新 类 型 构造 规则 、 类 
型 等 价 或 相 容 规 则 、 类 型 推断 规则 。 很 多 语言 还 提供 了 一 些 类 型 隐 式 转换 的 规则 。 下 面 ， 从 
编译 器 设计 角度 来 详细 描述 各 部 分 的 作用 。 

1. 基本 类 型 

绝 大 多 数 语 言 的 基本 类 型 都 是 从 三 个 原子 类 型 〈 即 数值 、 字 符 、 布 尔 值 ) 引申 得 到 的 ， 
其 中 数值 是 最 为 复杂 的 ， 它 可 以 细 化 成 各 种 基本 类 型 。 例 如 ， 数 值 可 以 分 为 整数 类 型 、 实 数 
类 型 。 而 根据 不 同 的 程序 设计 语言 ， 又 将 整数 类 型 定义 为 integer、byte、word、longword 等 
整数 类 型 。 而 实数 类 型 又 可 以 细 化 为 float、double 等 。 一 般 来 说 ， 现 代 大 多 数 程序 设计 语言 
都 提供 了 非常 丰富 的 基本 类 型 ， 以 便 程序 员 有 更 多 的 选择 。 
程序 设计 语言 通常 从 两 个 方面 细 化 整数 类 型 ， 即 长 度 、 符 号 位 。 符 号 位 相对 比较 简单 ， 
而 长 度 就 复杂 些 了 。 有 些 语言 使 用 绝对 长 度 描述 基本 类 型 ， 即 在 语言 的 类 型 系统 中 明确 规定 
各 种 基本 类 型 占用 的 bit 或 byte 的 数量 ， 如 Fortran、Ada 等 。 而 有 些 则 是 以 相对 长 度 描述 基 
本 类 型 ， 即 只 描述 各 种 基本 类 型 之 间 的 相对 关系 ， 具 体 的 实现 是 由 编译 器 设计 者 规定 的 。 例 
如 ，C 语言 规定 long long 类 型 的 长 度 是 long 类 型 的 2 倍 ， 但 并 没有 严格 定义 long 或 者 long 
long 的 实际 长 度 。 
当然 ， 针 对 实数 类 型 而 言 ， 实 数 的 表示 形式 也 是 一 个 可 细 化 的 方面 。 例 如 ， 实 数 的 尾数 
的 精确 位 数 、 阶 码 的 表示 范围 等 。 大 多 数 语 言 的 实数 类 型 的 表示 形式 都 是 遵守 IEEE 754 标 
准 的 ， 所 以 其 表示 形式 还 是 比较 一 致 的 。 

以 上 从 语言 及 编译 器 设计 的 角度 对 基本 类 型 作 了 简单 介绍 。 由 于 基本 类 型 比较 简单 ， 笔 
者 就 不 再 耗费 篇 幅 了 。 

2， 新 类 型 构造 规则 
程序 设计 语言 的 基本 类 型 通常 是 硬件 支持 的 数据 存储 方式 的 一 种 抽象 ， 但 是 这 却 不 足以 
满足 程序 员 处 理 复杂 数据 结构 的 需要 ， 例 如 ， 图 、 树 、 表 、 栈 、 数 组 、 串 等 。 这 些 数据 结构 
与 基本 类 型 的 主要 区 别 在 于 它们 通常 需要 一 组 对 象 加 以 描述 ， 如 何 将 基本 类 型 组 合 或 复合 为 
这 些 复杂 的 数据 结构 是 高 级 语言 设计 者 必须 思考 的 问题 。 

在 程序 设计 语言 中 ， 有 些 复杂 类 型 需要 语言 本 身 的 支持 ， 如 数组 、 串 、 枚 举 、 结 构 、 指 
针 等 。 而 复杂 类 型 可 以 由 前 者 合成 ， 如 树 、 图 等 。 语 言 设 计 者 通常 将 前 者 作为 类 型 系统 的 一 
部 分 ， 明 确 说 明 其 构造 原则 。 下 面 ， 笔 者 针对 语言 设计 中 最 常见 的 数组 作 简 单 分 析 ， 以 便 读 
者 了 解 如 何在 类 型 系统 中 构建 复杂 类 型 。 

通常 ， 在 类 型 系统 中 ， 数 组 类 型 需 明 确 说 明 如 下 几 点 : 
(1) 数组 的 基 类 型 。 有 些 语言 规定 数组 的 基 类 型 只 能 是 语言 支持 的 基本 类 型 ， 而 更 多 的 
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语言 则 允许 基 类 型 是 任意 类 型 ， 甚 至 是 数组 。 

(2) 行 〈 列 ) 优先 原则 。 例 如 ，Fortran 是 列 优 先 ， 而 C、Pascal 都 是 行 优先 。 

(3) 数组 操作 的 支持 。 有 些 语言 支持 对 整个 或 部 分 数组 赋值 ， 例 如 ， 当 a，b, c 是 大 
小 、 形 状 相 同 且 基 类 型 文 持 加 法 运算 的 数组 时 ，Fortran 90 允许 使 用 a=b+c 将 b，c 各 单元 元 
素 相 加 后 送 到 a 的 相应 单元 中 。 而 C、Pascal 对 于 数组 的 操作 则 相对 比较 简单 。 

(4) 最 大 维度 。 数 组 的 最 大 维度 理论 上 是 没有 限制 的 。 大 多 数 语言 设计 者 也 认同 这 一 
观点 。 

(5) 物理 存储 形式 。 即 如 何 分 配 数组 的 物理 存储 空间 ， 以 及 以 什么 形式 存储 数组 元 素 。 

(6) 数组 声明 的 语法 、 语 义 形式 。 

不 难 发 现 ， 上 述说 明 并 不 复杂 ， 都 是 一 些 最 基本 的 元 素 。 对 了 解 程序 设计 的 读者 来 说 ， 
应 该 是 非常 简单 的 。 因 此 ， 不 必 花 较 大 篇 幅 评说 各 种 复杂 类 型 。 注 意 ， 类 型 系统 是 程序 设计 
语言 的 一 部 分 ， 类 型 系统 的 描述 可 以 是 形式 化 的 ， 也 可 以 是 非 形式 化 的 。 从 编译 器 设计 的 角 
度 来 说 ， 不 必 拘 泥 于 小 节 ， 只 要 能 明确 、 清 晰 说 明 语言 的 类 型 即 可 。 

3. 类 型 等 价 或 相 容 规则 

实际 上 ， 类 型 等 价 和 类 型 相 容 是 不 同 的 概念 ， 所 谓 “ 类 型 等 价 ” 就 是 指 对 于 程序 设计 语 
， 两 个 类 型 是 相同 的 。 而 所 谓 “ 类 型 相 容 ”就 是 指 对 于 程序 设计 语言 而 言 ， 两 个 类 型 


言 而 言 

是 兼容 的 ， 即 可 以 通过 一 定 的 隐 式 转换 使 两 个 类 型 等 价 。 类 型 等 价 是 类 型 相 容 的 充分 条 件 。 
类 型 相 容 的 规则 更 多 应 用 于 确定 特定 类 型 的 对 象 是 否 满足 特定 上 下 文 的 需要 。 下 面 ， 先 来 谈 
谈 类 型 等 价 的 话题 。 


程序 设计 语言 判断 两 个 类 型 是 否 等 价 的 标准 是 什么 呢 ? 不 妨 先 分 析 图 6-1 的 实例 。 


struct Node struct TableNode 
{ { 

int data; int data; 

struct Node * link; struct TableNode * link:; 
} } 


图 6-1 类 型 等 价 实例 


在 图 6-1 中 ，Node 类 型 与 TableNode 类 型 是 否 等 价 呢 ? 这 就 引出 了 两 个 等 价 标 准 ， 即 
名 字 等 价 和 结构 等 价 。 

名 字 等 价 的 观点 是 : 两 个 类 型 等 价 的 基本 条 件 是 类 型 名 字 必 须 相 同 。 根 据 这 一 条 
件 ， 图 6-1 的 类 型 是 不 等 价 的 。 严 格 意义 上 的 名 字 等 价 是 不 可 取 的 ， 因 为 当 项 目 规 模 较 大 
时 ， 名 字 的 一 致 性 是 很 难 维护 的 。 通 常 ， 实 际 编译 器 很 少 采 用 严格 的 名 字 等 价 。 不 过 ， 有 些 
语言 支持 类 型 命名 机 制 ， 那 么 ， 由 此 可 能 产生 类 型 别名 。 如 果 将 类 型 别名 考虑 在 内 ， 名 字 等 
价 还 是 具有 实际 意义 的 ， 这 种 机 制 有 时 称 为 “宽松 的 名 字 等 价 ”。 例 如 ， 在 C 语言 中 声明 
typedef struct p q;〈 其 中 p 是 一 个 已 声明 的 结构 类 型 )， 即 表示 q 是 类 型 p 的 别名 。 在 这 种 情 
况 下 ， 按 严格 的 名 字 等 价 机 制 来 说 ，q 与 p 显然 不 是 等 价 类 型 。 不 过 ， 由 于 q 只 是 p 的 一 个 
别名 ， 按 宽松 的 名 字 等 价 机 制 来 说 ，q 与 p 是 等 价 类 型 。 注 意 ， 实 际 编译 器 中 所 讨论 的 名 字 
等 价 都 是 宽松 的 名 字 等 价 。 名 字 等 价 的 优点 在 于 实现 比较 简单 。 
结构 等 价 的 观点 是 : 两 个 类 型 等 价 的 基本 条 件 是 它们 的 结构 必须 相同 。 根 据 这 个 条 件 ， 
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图 6-1 的 类 型 是 等 价 的 。 结 构 等 价 的 判断 标准 要 比 名 字 等 价 宽松 得 多 ， 也 更 灵活 。 不 过 ， 很 
少 有 程序 设计 语言 选择 结构 等 价 作 为 判断 标准 。 结 构 等 价 表面 上 看 似乎 比 名 字 等 价 更 合理 ， 
实则 不 然 。 主 要 有 如 下 三 个 原因 : 
(1) 无 法 区 别 设计 本 意 不 同 但 结构 完全 相同 的 两 个 类 型 。 如 图 6-2 所 示 。 


struct rectangle /长 方形 struct ellipse // 椭 圆 形 
{ { 
float x; // 长 float x; // 长 轴 
float y; // 宽 float y; // 短 轴 
} } 


图 6-2 ”结构 等 价 实例 


不 难 发 现 ， 根 据 结构 等 价 的 观点 ， 图 6-2 所 示 的 两 个 类 型 是 等 价 的 。 不 过 ， 这 个 判断 结 
果 似 乎 明显 违背 了 程序 员 的 本 意 。 这 种 歧义 的 等 价 结果 不 但 没有 太 大 的 意义 ， 甚 至 还 有 可 能 
引发 一 些 问 题 。 

(2) 结构 等 价 的 实现 也 比较 复杂 ， 而 且 根 据 源 语言 的 特点 ， 可 能 还 需要 考虑 递归 类 型 声 
明 的 情况 。 尤 其 当 基 本 类 型 比较 丰富 时 ， 判 断 算法 的 效率 可 能 比较 低 。 

《3 ) 由 于 不 同 程序 设计 语言 的 特点 不 尽 相 同 ， 结 构 等 价 的 定义 也 就 各 有 不 同 了 。 例 如 ， 
有 些 语言 并 不 强调 结构 类 型 中 域 的 顺序 ， 这 样 判断 算法 就 会 非常 复杂 。 

下 面 ， 举 两 个 实际 语言 的 例子 来 说 明 类 型 等 价 问题 。 

C 语言 明确 指出 其 使 用 宽松 的 名 字 等 价 规则 ， 结 构 、 联 合 以 及 typedef 皆 是 如 此 ， 而 C 
语言 的 基本 类 型 都 是 互 不 等 价 的 。 只 不 过 由 于 C 语言 是 弱 类 型 语言 ， 有 较 丰 富 的 类 型 相 容 规 
则 ， 读 者 千 万 不 要 认为 C 语言 类 型 就 是 互相 等 价 的 。 

Pascal 的 类 型 等 价 问题 就 比较 模糊 了 ，Pascal 报告 中 并 没有 明确 提 到 “类 型 等 价 ” 的 概 
念 。 一 般 来 说 ，Pascal 语言 的 类 型 等 价 问题 更 多 依赖 于 有 具体 编译 器 的 实现 。 这 里 ， 笔 者 以 
Turbo Pascal 为 例 ， 说 明 Pascal 的 类 型 等 价 问题 。 

例 6-1 Turbo Pascal 的 类 型 等 价 。 


TYPE 
T1=^INTEGER; 
T2=^INTEGER; 
T3=T1; 

VAR 
ab :Tl; 
C :12 
d :人 INTEGER:; 
e@ :^AINTEGER， 
:TT3: 


在 本 例 中 ，a，b，c，d，e 中 有 几 组 类 型 等 价 的 变量 呢 ? 答案 只 有 一 组 ， 即 (a, b, 人 。 
为 什么 呢 ? 从 理论 上 分 析 ， 可 能 并 不 容易 理解 其 中 的 原因 。 实 际 上 ， 从 符号 表 设 计 的 角度 就 非 
常 容易 得 到 这 个 答案 。 根 据 前 面 所 介绍 的 符号 表 结 构 , 可 以 得 到 如 图 6-3 所 示 的 符号 表 结 构 。 
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pa 


从 符号 表 中 ， 不 难得 到 一 个 结论 : 


I 
| ome | 
ECE ISTEGEK 


Ea 加 

一 。 | ne 
一 ce | 
q 
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一 oa 
pomer 
reoER 
下 
pomer 
reoER 
a 


友 夺 口 


6-3 ”符号 表示 意图 


Turbo Pascal 判定 类 型 等 价 的 标准 是 从 变量 的 类 型 指 
针 开 始 ， 跃 过 所 有 类 型 别名 结 点 (例如 ， 本 例 中 的 Tl、T2、T3、nonamel、 


noname2) 后 ， 


如 果 指针 指向 同一 个 类 型 结 点 时 ， 则 认为 两 个 变量 的 类 型 是 等 价 的 ， 否 则 认为 它们 是 不 等 从 


的 。 例 如 ， 判 断 f 与 a 变量 的 类 型 等 价 的 过 程 如 下 : 


第 三 


分 别 跃 过 别名 结 点 T3、T1， 最 终 都 指向 


二 行 的 t pointer 结 点 ， 由 此 推断 它们 是 等 价 的 。 这 种 观点 得 到 许多 Pascal 编译 器 设计 者 


的 认同 。Neo Pascal 的 类 型 等 价 规则 与 Turbo Pascal 是 一 致 的 。 

讨论 完 类 型 等 价 问 题 ， 再 来 看 看 类 型 相 容 的 话题 。 

前 面 已 经 简单 介绍 了 类 型 相 容 的 概念 。 从 实践 的 角度 来 说 ， 类 型 相 容 更 多 关注 的 是 类 型 
之 间 的 隐 式 转换 是 否 可 行 。 例 如 ， 在 Pascal 中 ， 讨 论 INTEGER 与 REAL 类 型 是 否 相 容 的 问 


日 


下 两 者 就 不 相 容 了， 而 只 能 借助 于 显 式 转换 。 


题 ， 就 是 明确 将 哪个 类 型 作为 标准 类 型 。 如 果 将 REAL 作为 标准 类 型 ， 那 么 ， 将 INTEGER 
类 型 隐 式 转换 为 REAL 是 完全 可 行 的 ， 在 这 种 情况 下 两 者 是 相 容 的 。 但 是 ， 如 果 将 
INTEGER 作为 标准 类 型 ， 而 将 REAL 类 型 隐 式 转换 为 INTEGER 则 是 不 可 行 的 ， 这 种 情况 


通常 ， 程 序 设计 语言 讨论 类 型 相 容 是 基于 一 个 特定 的 上 下 文 环境 讨论 的 。 只 有 在 一 定 的 


上 下 文 环境 下 ， 才 有 标准 类 型 〈 或 者 称 为 上 下 文 期 望 的 类 型 ) 的 概念 。 


般 而 言 ， 需 要 在 以 


下 儿 种 上 下 文 环境 下 考虑 类 型 相 容 : 


赋值 语句 : 右 部 表达 式 类 型 必须 与 左 部 表达 式 的 类 型 相 容 。 此 时 ， 左 部 表达 式 的 类 型 作 


为 标准 类 型 。 


型 相 容 。 


类 型 作为 标准 类 型 。 


关于 类 型 相 容 性 的 定义 ， 不 同 的 程序 设计 语言 有 


有 些 语言 就 比较 宽松 。 


运算 表达 式 : 根据 不 同 的 运算 表达 式 的 需求 ， 操 作 数 的 类 型 必须 与 运算 表达 式 期 望 的 类 


函数 传 参 ， 实 参 的 类 型 必须 与 形 参 类 型 相 容 ， 此 时 ， 形 参 类 型 作为 标准 类 型 。 
函数 返回 值 ， 实 际 返 回 值 表达 式 的 类 型 必须 与 函数 声明 的 返回 值 类 型 相 容 ， 此 时 ， 声 明 


自 的 理解 。 有 些 语言 比较 严格 ， 而 


C 语言 就 是 一 种 非常 宽松 的 语言 实例 ,在 C 语言 中 ， 所 有 的 数值 类 
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型 都 是 相 容 的 。 即 使 用 double 变量 给 char 变量 赋值 ， 依 然 是 合法 的 ， 其 中 的 隐 式 转换 完全 


由 编译 器 完成 。 然 而 ，Pascal 语言 就 严格 一 些 。 关 于 类 型 相 
一 的 观点 。 
4. 类 型 推断 规则 


能 会 觉得 运算 结果 溢出 应 该 由 程序 员 控 于 


4 


在 C 语言 中 ， 已 知 a、b 的 类 型 是 unsigned char， 是 否 可 以 判断 atb 的 类 型 呢 ? 读 者 可 
能 会 不 假 思索 地 认为 结果 类 型 也 是 unsigned char。 这 个 答案 正确 吗 ? 假设 a、b 的 值 都 是 255 
的 情况 下 ，atb 的 值 为 S10， 显 然 已 经 远 远 超 过 了 unsigned char 类 型 的 表示 范围 。 有 读者 可 
， 而 不 应 当 由 编译 器 处 理 。 这 种 说 法 并 非 没 有 道 
理 。 确 实 ， 在 实际 编程 过 程 中 ， 有 一 些 数据 溢出 的 错误 是 应 该 由 程序 员 自 行 解决 的 。 如 果 程 
序 员 将 atb 的 结果 赋 给 了 一 个 char 类 型 的 变量 ， 因 此 所 产生 的 溢出 完全 应 由 程序 员 负 责 。 但 


容 的 宽 严 之 争 ， 学 界 并 没有 统 


是 ， 如 果 程 序 员 将 atb 的 结果 赋 给 了 一 个 int 类 型 的 变量 ， 计 算 结果 却 由 于 atb 运算 结果 的 


溢出 而 不 正确 ， 难 道 这 也 要 程序 员 买 单 吗 ? 显然 ， 这 是 令 人 无 法 接受 的 。 那 么 ， 如 何 才 避 免 
此 类 溢出 的 发 生 ? 通常 ， 需 要 编译 器 根据 每 一 个 表达 式 的 操作 数 类 型 ， 推 断 获 得 其 运算 结果 


的 类 型 ， 这 种 推断 机 制 就 是 类 型 推断 。 


那么 ， 类 型 推断 又 是 如 何 达 到 预期 目标 的 呢 ? 实际 上 ， 在 设计 程序 设计 语言 时 ， 设 计 者 
根据 类 型 系统 及 运算 符 的 实际 状况 ， 推 导出 类 型 与 运算 符 各 种 组 合 之 下 的 结果 类 型 。 然 后 ， 
将 这 些 推导 结果 整理 形成 一 种 映射 关系 ， 这 就 是 类 型 推 央 规则。 编译 器 就 是 根据 这 些 规 则 机 


械 地 完成 类 型 推断 工作 的 。 


下 面 ， 先 看 一 个 简单 的 类 型 推断 规则 的 实例 。 这 是 部 分 Neo Pascal 类 型 推断 规则 。 从 


表 6-1 分 析 ， 不 难 想 象 ， 完 整 的 类 型 推断 规则 的 规模 应 该 是 非常 庞大 的 。 一 般 而 言 ， 可 以 得 


到 如 下 结论 : 
R 二 Op 义工 X 工 


其 中 ，R 表示 类 型 推断 的 规则 数量 ，Op 表示 双 目 运算 符 的 种 类 数 ，T 表示 语言 预定 义 类 型 种 


类 数 。Neo Pascal 的 规则 数量 大 约 为 1300 条 左右 。 然 而 ， 有 些 语言 引入 了 类 型 提升 的 概念， 


从 编译 器 设计 的 角度 而 言 ， 它 可 以 将 类 型 推断 描述 为 一 个 规则 


表 6-1 类 型 推断 规则 


SS 


函数 的 形式 。 


a 类 型 b 类 型 atb 类 型 
T_INTEGER T_INTEGER T_INTEGER 
T_INTEGER T_BYTE T_INTEGER 
T_INTEGER T_SHORTINT T_INTEGER 
T_INTEGER T_SMALLINT T_INTEGER 
T_INTEGER T_WORD T_INTEGER 
T_INTEGER T LONGWORD T_INTEGER 
T_INTEGER T_CARDINAL T_INTEGER 
T_INTEGER T_ REAL T_REAL 
T_INTEGER T_SINGLE T_ REAL 
T_INTEGER T_POINTER T_POINTER 


以 上 只 讨论 了 类 型 推断 的 一 个 话题 ， 即 表达 式 类 型 推断 。 


当然 ， 这 是 类 型 推断 的 主要 工 


上 
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作 。 实 际 上 ， 除 此 之 外 ， 类 型 


表达 式 语义 第 6 党 


打 的 工作 还 包括 推断 常量 的 类 型 。 媳 


编程 过 程 中 ， 程 序 员 不 


三 


AL 
[3 


可 避免 地 会 使 用 常量 。 但 是 ， 
明 变量 一 样 ， 说 明 常 量 的 类 型 。 


县 


有 读 


到 底 是 什么 类 2 


型 的 [ 


已 ? 


程序 设计 语言 无 法 要 求 程序 员 像 声 


者 可 能 会 


反 驶 ， 垦 


友 夺 二 


日 


类 型 的 。 实 际 上 ， 这 种 形式 的 常量 


县 XC 


EC 语言 中 ， 声 明 常 
EE， 的确 有 些 语言 要 求 程序 员 为 


量 通常 也 需要 指出 


Ar FI 着 


符号 常量 指明 类 


符号 常 昌 


型 ， 但 这 并 不 是 普遍 
了 一 种 更 常用 上 
一 种 语言 要 求 程序 员 指 明 


的 ，Pascal 语言 
的 常量 ， 例 如 ，cos(3.4)， 其 中 ，3.4 就 是 一 个 常生 
类 型 信息 的 。 当 然 ，3.4 也 不 能 没有 


的 符号 


由 编译 器 推断 得 到 。 较 之 表达 式 的 


断 ， 常 量 类 型 的 


上 朋 日 在 局 
量 是 不 需要 


抽 [ 要 简 上 


。 然 而 ， 读 者 可 能 忽 
。 针 对 这 种 情况 ， 相 信 没 有 
类 型 信息 ， 而 它 的 类 型 必须 
得 多 ， 只 需 根据 常量 的 取 值 


类 型 能 忽略 


选择 合适 的 类 型 即 可 。 当 然 ， 常 量 类 型 


推 


断 为 无 符号 类 型 还 是 有 符号 类 型 是 


存在 


新 也 有 一 定 技巧 ， 例 如 ， 对 于 
定 区 别 的 。 不 同 程序 设计 语言 及 编译 器 对 于 这 些 细 


FE 整数 而 言 ， 将 其 推 


AD 


i 


E 季 


断 方 面 ， 有 些 语 言 的 处 到 


， 即 尽 可 能 选择 


简明 


非 


吊 


节 的 定义 与 实现 是 不 尽 相 同 的。 在 
高 级 类 型 描述 常量 ， 而 并 不 要 求 精确 
最 后 ， 笔 者 还 必须 指出 一 点 ， 对 


推断 。 


于 


单 的 。 有些 语言 特性 却 可 能 会 使 类 型 
声明 ， 编 译 器 只 能 够 从 上 下 文中 收集 


性 、 重 载 、 泛 型 、 作 用 域 规则 等 特 


是 


3 


推断 变 得 极其 复杂 ， 
线索 并 作出 推断 。 昨 


C、Pascal 之 类 的 结构 化 语言 ， 类 


型 推断 机 制 是 很 简 
例如 ，BASIC 语言 不 强制 要 求 变量 
如， 面向 对 象 语言 的 派生 类 、 多 态 


生 同 样 会 使 得 类 型 推 炳 变 得 复杂 ，C++ 的 类 型 推断 机 制 正 


是 如 此 。 而 函数 式 语言 ML 在 类 型 
6.2.3 ”类 型 转换 
相信 读者 对 于 类 型 转换 应 该 并 不 


换 两 类 。C 语言 是 弱 类 型 语言 ， 对 于 类 型 转换 的 限 


二 


的 转换 。 这 里 ， 笔 者 不 谈 显 式 转换 ， 


来 说 ， 显 式 转换 实际 上 就 是 一 次 函数 调用 的 过 各 
判 类 型 转换 。 隐 式 转换 并 不 需要 程序 员 授权 ， 而 转换 的 安全 性 也 是 上 


换 ， 所 以 有 时 也 称 为 强 和 


断 方 面 是 研究 最 深 均 


陌生 ， 在 C 语言 中 ， 


因为 显 式 转换 的 安 


判 很 少 ， 当 然 ， 
ss 


上 且 做 得 最 好 的 语言 之 一 。 


将 类 型 转换 分 为 隐 式 转换 、 显 式 转 
中 也 包括 了 一 些 不 安全 
是 由 程序 员 保 证 的 。 对 于 编译 器 


必 


口 


Co 


口 


j 言 ， 各 


编译 器 保证 的 。 一 般 页 


在 一 定 不 安全 因素 的 隐 式 转换 宁可 不 做 。Pascal 语言 在 隐 式 转换 方 
不 作为 隐 式 转换 的 范畴 ， 需 要 程 / 
有 译 器 设计 者 应 当 注 


real 转 integer、integer 转 char 等 转换 


在 实现 隐 式 类 型 转换 时 ， 语 言及 多 


序 设计 语言 对 隐 式 转换 的 基本 要 求 就 是 保 订 


者 


1) 损失 精度 处 理 。 例 如 ，C 语言 中 ，float 转 int 时 ， 小 数 部 分 应 该 如 何 处 理 呢 ? 选择 


而 隐 式 转换 是 | 


编译 器 自动 完成 的 类 型 转 


FE 安 全 ， 对 于 一 些 存 
看 是 非常 谨慎 的 ， 例 如 ， 
谭 员 编码 完成 。 


FE 意 如 下 几 点 : 


合 尾 法 取 整 还 是 四 舍 五 入 取 整 是 语言 设计 者 应 该 考虑 的 问题 。 


(2) 有 符号 类 型 与 无 符号 类 型 互 转 。 在 这 种 情况 下 ， 必 须 考虑 如 何 处 理 符号 位 。 通 常 的 
做 法 是 忽略 符号 位 的 存在 。 例 如 ， 无 符号 字符 类 型 变量 a 转换 成 有 符号 字符 类 型 变量 时 ， 直 
接 将 其 按 字 节 复制 即 可 。 当 a 的 值 为 200 时 ， 转 换 结果 为 -55。 

(3) 有 符号 扩展 的 处 理 。 例 如 ， 将 signed char 转 为 int 时， 一定 要 注意 按 符号 位 扩展 。 

最 后 ， 笔 者 有 一 名 忠告， 语言 中 广泛 应 用 隐 式 转换 并 非 上 上 之 策 。 实 际 上 ，C 语言 的 隐 
式 转换 在 学 界 是 受到 质疑 的 ， 它 可 能 会 使 一 些 本 来 非常 明显 的 错误 被 隐藏 。 对 于 程序 员 而 
言 ， 这 是 非常 可 怕 的 ， 因 为 无 法 预知 “定时 炸弹 ” 何 时 引爆 。 正 确 评价 与 利用 隐 式 转换 机 制 
是 有 现实 意义 的 ， 安 全 性 是 需要 考虑 的 最 重要 因素 。 
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| 6.3 ”类 型 系统 的 实现 


6.3.1 类 型 系统 的 设计 


前 面 详 细 讨 论 了 类 型 系统 的 一 些 理论 基础 ， 包 括 类 型 等 价 、 类 型 相 容 、 类 型 推断 以 及 隐 
式 转换 等 话题 ， 不 少 读者 可 能 已 经 看 得 一 头 雾 水 。 类 型 系统 理论 确实 有 些 抽 象 ， 不 太 容易 理 
解 。 不 过 ， 幸 运 的 是 编译 器 设计 所 需要 的 类 型 理论 相对 有 限 。 同 时 ， 借 助 于 Neo Pascal 的 源 
代码 及 相关 设计 文档 ， 相 信 并 不 算 太 抽象 。 下 面 ， 就 从 一 个 实际 编译 器 的 类 型 系统 实例 入 
， 分 析 类 型 系统 设计 与 实现 的 某 些 细节 。 

从 编译 器 设计 的 角度 而 言 ， 类 型 系统 又 是 什么 呢 ? 实际 上 ， 简 言 之 ， 主 要 就 是 实现 类 型 
检查 和 类 型 转换 的 机 制 。 那 么 ， 如 何 才能 真正 实现 这 两 个 类 型 机 制 呢 ? 先 来 看 一 段 程 序 伪 代 
人 码 ， 如 图 6-4 所 示 。 


I 


if (Op==MOD) 
{ 
if (GetType(Op1)==INT && GetType(Op2)==INT) 


if (GetType(Op1)==FLOAT && GetType(Op2)==CHAR) 
{ 


printfk" 取 模 运 算 不 允许 操作 数 类 型 为 float"); 


图 6-4 ”类 型 系统 的 伪 代 码 实 现 


这 是 一 段 非常 简单 的 类 型 检查 程序 ， 其 功能 是 检查 取 模 运算 的 操作 数 类 型 。 有些 读者 认 


这 
种 方案 是 完全 可 行 的 ， 但 是 ， 是 否 考虑 过 这 项 工程 的 复杂 性 ?以 Neo Pascal 为 例 ， 可 以 估算 
一 下 手工 实现 类 型 检查 机 制 需 要 的 过 判断 数量 。Neo Pascal 有 18 个 双 目 运算 符 、4 个 单 目 运 
算 符 以 及 16 种 类 型 ， 在 不 考虑 单 目 运算 符 的 情况 下 ， 至 少 存在 16X16X18=4608 种 组 合 。 
当然 ， 在 实现 过 程 中 ， 并 不 需要 考虑 这 么 多 种 组 合 情 况 。 因 为 ， 设 计 者 更 多 关心 的 是 合法 情 
况 时 所 需 执行 的 语义 动作 ， 比 如 ， 类 型 转换 、 类 型 推断 等 。 对 于 非法 的 组 合 ， 只 需 报 错 即 
可 。 在 这 种 情况 下 ， 只 需 建立 一 个 集合 ， 该 集合 描述 的 是 各 种 运算 符 与 类 型 的 正确 组 合 。 在 
类 型 检查 时 ， 编 译 器 按 输入 表达 式 的 实际 运算 符 及 类 型 与 集合 中 的 元 素 匹 配 ， 如 果 存 在 则 表 
示 类 型 检查 合法 ， 直 接 执行 相应 的 语义 动作 。 如 果 不 存在 于 集合 中 ， 则 表示 类 型 检查 是 非法 


i 
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的 ， 由 编译 器 统一 报告 出 错 信 息 。 即 使 如 此 ， 根 据 Neo Pascal 的 实际 情 
能 否 想象 在 程序 中 出 现 1300 多 个 证 是 什么 样 的 情况 ? 


1300 余 种 组 合 需要 编译 器 处 理 。 


能 是 徒劳 的 。 


下 面 ， 介 绍 一 种 应 


| 断 是 必 不 可 少 的 ， 关 键 如 


点 ， 类 型 


E 于 如 何 有 效 地 实现 。 妇 


读者 


表达 式 语义 


第 6 膏 


况 ， 依 然 不 得 不 面临 


源 语言 基本 类 型 的 扩展 ， 程 序 的 规模 还 会 呈 非 线性 增长 ， 这 是 比较 可 怕 的 。 同 时 ， 这 种 
程序 的 可 读 性 、 可 维护 性 必定 大 大 降低 。 


不 过 ， 笔 者 需要 指出 一 系统 是 编译 器 前 端的 一 个 核心 元 素 ， 这 1300 余 个 类 型 


[I 果 试图 


以 任何 理 


四 加 


表格 实现 类 型 系统 的 方法 。 这 种 方法 可 统筹 地 考虑 类 型 检查 


避 类 型 系统 的 实现 可 


、 类 型 


转换 以 及 类 型 推断 等 ， 甚 至 类 型 优化 也 得 到 了 兼顾 。 实 际 上 ， 编 译 器 类 型 系统 的 工作 流程 是 
机 械 的 、 模 式 化 的 。 无 论 是 类 型 检查 、 类 型 转换 还 是 类 型 推 师 都 是 由 相应 规则 指导 的 ， 并 不 
需要 编译 器 作 太 多 的 决策 或 加 工 。 以 取 模 运算 为 例 ， 可 以 将 其 总 结 为 表 6-2 所 示 。 
表 6-2 取 模 运算 类 型 系统 实例 
左 操作 数 右 操作 数 结果 操作 数 左 操作 数 类 型 转换 右 操 作 数 类 型 转换 

char char char 人 / 

int int int / CharTolInt 

word int word WordtoInt / 


萌 助 表 6-2《〈 表 中 并 没有 完整 地 列 出 取 模 运 


地 实现 类 型 检 


查 、 


类 型 转换 以 及 类 型 


bk 
o 


的 所 有 类 型 规则 )， 编 


首先 ， 编 译 器 


译 器 可 以 非常 方便 
民 据 取 模 表达 式 的 左 、 石 操作 数 类 
型 检索 表 6-2， 检 索 成 功 ， 则 表示 输入 表达 式 的 操作 数 类 型 合法 ， 即 实现 了 类 型 检查 机 


制 | 。 


然后 ， 编 译 器 根据 当前 表 项 的 信息 ， 判 断 左 、 右 操作 数 是 否 需要 类 型 转换 ， 需 要 则 生成 相应 


民 据 左 、 右 操 


的 人 迟 。 最 后 ,， 乡 


在 


i 译 器 根据 


断 都 已 经 非常 直观 地 晶 


类 


型 相 容 是 非常 简单 的 。 


结果 操作 数 类 型 
数 类 型 的 不 同 组 合 ， 加 以 
示 在 表 6-2 中 。 下 面 ， 笔 者 就 类 型 相 容 的 实现 
读者 不 妨 仔细 考虑 一 下 ， 如 何 应 用 类 型 系统 描述 类 型 相 容 呢 ? 一 般 


， 生 成 相应 的 运算 仿 。 而 结果 操作 数 的 类 型 就 是 


LE 靳 得 到 的 。 至 此 ， 类 


而 言 ， 


与 赋值 运算 类 型 检查 类 似 ， 几 
类 型 相 容 。 例 如 ， 在 Pascal 语言 中 ， 不 允许 将 


A 类 型 与 B 类 型 相 容 就 是 指 A 类 型 可 以 通过 类 型 转换 后 


变量 ， 
值 运 生 
类 型 相 容 等 机 


原因 


Hp 


了。 这 里 ， 


\ 值 运 


就 是 REAL 与 INTEGER 是 不 相 容 
类 型 检查 问题 来 处 理 。 至 此 ， 表 6-2 已 经 足以 实现 类 型 检查 、 类 型 转换 、 类 型 
笔者 暂时 将 类 似 于 表 6-2 的 表格 形式 称 为 “类 型 系统 表 ”。 类 型 
系统 表 的 优势 就 在 于 编译 器 设计 者 只 需 将 类 型 规则 加 入 表 中 ， 并 多 


当然 ， 


器 项 目 中 ， 视 类 型 系统 复杂 


=} 


理 动作 ， 即 可 完成 繁复 的 类 型 系统 。 
也 不 可 否认 一 个 事实 ， 那 就 


峡 
下 


口 


取 


后 ， 再 来 看 
型 系统 表 的 简单 模型 ， 
系统 表 结 构 ， 如 


的 类 型 


型 检查 、 


类 型 转换 、 类 型 推 
芷 简单 讨论 。 实 际 上 ， 


J 检查 主要 是 核查 源 操 
REAL 类 型 
的 。 


类 型 系统 表 的 规模 可 能 


旦 度 不 同 ， 类 型 系统 表 的 记录 量 可 能 达到 数 干 


Neo Pascal 类 型 系统 表 的 实 


它 与 真 J 


名 


6-5 所 示 。 


FE 实现 还 是 存在 


得 到 B 类 型 。 
和 F 数 类 型 是 否 与 结果 操作 数 
的 变量 直接 赋 给 INTEGER 类 型 的 
因此 ， 完 全 可 以 将 类 型 相 容 问题 转化 为 赋 


这 种 情况 恰好 


中 了 人 


斯 及 


1 


岗 。 实 际 上 ， 先 前 讨论 的 表 6-2 
定 差异 的 。 下 面 ， 笔 者 给 出 Neo Pascal 类 型 


j 码 实现 简单 的 表 检索 及 处 
较 庞大 ， 尤 其 是 实际 编译 
至 上 万 。 

只 是 一 个 类 
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岛 编译 器 设计 之 路 


Se 


是 


a 


T_BOOLEAN #0002 #0002 EQV 2 


T_CHAR T_CHAR 
T_CHAR T_STRING 
T_BOOLEAN  T_BOOLEAN 
T_INTEGER 7T_INTEGER 
T_INTEGER TT_BYTE 
T_INTEGER ~ T_SHORTINT 
T_INTEGER ~ T_SMALLINT 
T_INTEGER ~ T_WORD 
T_INTEGER  T_LONGWORD 
T_INTEGER ~ T_CARDINAL 
T_INTEGER 7T_REAL 
T_INTEGER ~ T_SINGLE 
T_BYTE T_INTEGER 
T_BYTE T_BYTE 
T_BYTE T_SHORTINT 
T_BYTE T_SMALLINT 
T_BYTE T_WORD 

图 


6-5 ”Neo Pascal 类 型 系统 表 结 构 示例 


作 符 | 操作 类 型 1 | 操作 类 型 2 | 结果 类 型 | 变量 操作 码 | 常量 操作 码 | 中 间 码 ”| 类 型 转换 1 类 型 转换 2 


T_BOOLEAN #0001 #0001 ZEQU_1 Jone Hone 
T_BOOLEAN #0002 001 EQU_3 ChrToStr Jone 
T_BOOLEAN #0001 #0001 EQU_1 Hone Jone 
T_BOOLEAN #0001 #002 EQU 4 Jone Hone 
T_BOOLEAN #0003 002 EQU 4 ByteToInt Hone 
T_BOOLEAN #0003 #0002 EQU 4 ShortToInt Hone 
T_BOOLEAN #003 #002 EQU 4 SmallToInt Hone 
T_BOOLEAN #0003 #0002 EQU 4 WordToInt Hone 
T_BOOLEAN #0005 #002 EQVU 8 IntToLone8 LongToLongB 
T_BOOLEAN #0005 #0002 EQ 8 IntToLong8 LongToLongB 
T_BOOLEAN #0002 #0002 EQVU 8F IntToReal Hone 
T_BOOLEAN #0002 #002 EQU 4F IntToSinele Hone 
T_BOOLEAN #0002 #0002 EQU 4 ByteToInt Hone 
T_FOOLEAN #0001 #002 EQU 1 Jone Hone 
T_BOOLEAN #0005 #0002 EQV 2 ByteToSmall ShortToSmall 
T_BOOLEAN #0002 #0002 EQVU 2 ByteToSmall Hone 


ByteToWord Jone 


图 6-5 是 Neo Pascal 类 型 系统 表 的 部 分 截图 ， 先 来 看 看 其 中 的 某 些 字段 属性 的 含义 。 
变量 操作 码 、 和 常量 操作 码 字段 表示 的 是 语义 处 理 的 动作 ， 即 语义 处 理 程 序 根据 操作 码 值 


的 不 同 ， 完 成 相应 的 语义 动作 。 这 上 


这 9 


读者 必须 注意 一 点 ， 为 了 提高 目标 程序 的 效率 ， 当 表 


达 式 的 操作 数 都 是 常量 时 ， 编 译 器 会 直接 计算 结果 并 将 其 记录 ， 而 不 会 按照 常规 方式 生成 


IR。 那 么 


就 必须 分 两 种 情况 考虑 ， 即 不 存在 变量 操作 数 〈 都 是 常量 操作 数 )、 存 在 变量 操 


作 数 。 这 里 ， 和 常量 操作 码 的 意义 就 是 标识 前 者 的 语义 动作 ， 而 变量 操作 码 就 是 后 者 的 语义 动 


作 标 识 。 


中 间 码 字段 表示 的 是 该 运算 的 三 地 址 代码 的 操作 符 ， 编 译 器 根据 该 字段 生成 了 及。 

类 型 转换 1、 类 型 转换 2 表示 的 是 操作 数 1、 操 作 数 2 的 类 型 转换 信息 ， 编 译 器 根据 这 
两 个 字段 生成 类 型 转换 的 IR。 

Neo Pascal 类 型 系统 表 的 结构 声明 如 下 : 


【声明 6-1】 
struct TypeSysInfo 


{ 


上 


最 后 ， 笔 者 还 需要 指 吕 
中 ， 所 以 实际 使 用 的 类 型 系统 表 是 图 
成 的 ， 对 于 编译 器 设计 是 透明 的 。 
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int m_iOPp; 

int m iOplType; 

int m iOp2Type; 

int m iRsltType; 

int m iProcessld; 

int m 1iVarProcessId; 
int m iIR; 

int m Convertl; 

int m Convert2; 


中 
1 


/操作 符 
/操作 数 1 的 类 型 编号 
/操作 数 2 的 类 型 编号 
/结果 操作 数 的 类 型 编号 
// 常 量 操作 码 

// 变 量 操作 码 

/IR 操作 符 

// 操 作 数 1 的 类 型 转换 
// 操 作 数 2 的 类 型 转换 


在 Neo Pascal 中 ， 由 于 类 型 系统 将 以 文件 形式 存储 在 外 存 


6-5 所 示 的 代码 化 形式 ， 这 是 由 源码 附带 的 工具 自动 完 


表达 式 语义 | 第 6 淖 


6.3.2 IR 的 操作 数 


在 正式 讲解 类 型 系统 的 代码 实现 之 前 ， 必 须 重新 认识 一 下 NPIR 的 操作 数 ， 它 是 讨论 表 
达 式 分 析 的 重要 前 提 。 在 第 5 章 中 ， 已 经 对 OpInfo 作 过 简单 讲解 。 不 过 ， 这 并 不 能 满足 表 
达 式 翻译 的 需要 。 由 于 Neo Pascal 没有 设计 AST 结构 ， 所 以 IR 的 操作 数 将 承担 更 多 工作 ， 
它 必 须 足 以 记录 整个 表达 式 分 析 过 程 中 的 类 型 跟踪 人 信息。 不过， 这些 类 型 跟踪 信息 仅仅 在 表 
达 式 翻译 过 程 中 有 效 ， 一 旦 完成 了 表达 式 的 翻译 之 后 ， 对 于 语句 的 翻译 或 者 后 续 的 优化 、 代 
码 生 成 等 是 没有 任何 意义 的 。 下 面 ， 就 来 看 看 OpInfo 的 完整 声明 形式 : 


【声明 6-2】 
struct OpInfo 


{ 


enum {CONST,VAR,PTR,LABEL,NONE,PROC} m iType; // 操 作 数 类 型 
int m iLink; // 操 作 数 指针 
stack<VarType> m_iDetailType; // 操 作 数 详细 类 型 指针 
bool m_bRef: // 操 作 数 是 否 为 间接 导 址 
vector<int> m_udChain; // 操 作 数 的 ud 链 
vector<int> m_duChain; // 操 作 数 的 du 链 
bool m_bUninit; // 操 作 数 是 否 初 始 化 
上 
这 里 ， 主 要 讨论 一 下 m_iDetailType。 这 是 一 个 用 于 跟踪 类 型 变化 的 栈 ， 其 声明 形式 
如 下 : 
【声明 6-3】 
struct VarType 


{ 
StoreType m_StoreType; 


int m iLink; 
上 
stack<VarType> m_iDetailType; 


el 


VarType 结构 有 两 个 属性 ， 分 别 表示 基本 类 型 及 指向 类 型 描述 的 指针 〈 即 类 型 描述 信 
息 在 类 型 信息 表 中 的 位 序号 )， 而 栈 顶 元 素 记 录 的 则 是 操作 数 的 当前 类 型 。 假 设 有 声明 形 
式 如 下 : 


【声明 6-4】 
TYPE 
T3=record 1,j,k:integer;end; 
T2=^T3; 
Tl1=array [1..3] of T2; 
TO0=RECORD p:^T1;end; 
VAR 


由 
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B R i 
辐 、 编译 器 设计 之 路 
ee 


a:array [1..10] of TO; 
表达 式 的 某 一 操作 数 为 ali].p^[3]^k， 这 个 形式 比较 复杂 ， 而 隐藏 在 这 个 操作 数 背后 的 
类 型 信息 就 更 复杂 了 。 根 据 标准 Pascal 的 约定 ， 这 个 操作 数 的 最 终 类 型 是 一 个 integer 型 数 
据 。 不 过 ， 在 开始 分 析 时 ， 编 译 器 是 不 可 能 准确 断言 的 。 其 类 型 变化 的 过 程 如 图 6-6 所 示 。 


0D 


0 = . 
array > TI0 > Tl» Tl >» T2 ~» T3 ~» integer 


图 6-6 类 型 推断 的 过 程 示意 


精准 记录 类 型 变化 的 详细 过 程 对 于 编译 器 分 析 操 作 数 的 类 型 是 非常 有 利 的 。 
6.3.3 ”类 型 相 容 的 实现 


前 面 已 经 讲述 了 类 型 相 容 的 相关 基础 理论 ， 本 小 节 将 分 析 Neo Pascal 的 相关 源 代 码 实 
现 。 在 Neo Pascal 表达 式 处 理 中 ， 类 型 等 价 被 视 作 一 种 特殊 的 类 型 相 容 问题 ， 所 以 不 作 专门 
讨论 。 下 面 ， 就 来 看 看 Neo Pascal 是 如 何 验证 类 型 相 容 的 。 


程序 6-1 Type.cpp 


1 int CType::TypeCompatible( OpInfo Op1,OpInfo Op2,int Op) 

2 { 

E] StoreType OplType,Op2Type; 

4 OplType=GetOpType(Op1); 

5 Op2Type=GetOpType(Op2); 

6 return SymbolTbl.SearchTypeSysTbl(Op,(int)OplType,(int)Op2Type); 
Li} 


第 4~5 行 : 调用 了 GetOpType 函数 获取 操作 数 的 实际 类 型 。 有 两 种 方式 可 以 获取 操作 
数 类 型 : 1、m_iDetailType 栈 的 栈 顶 元 素 。2、 根 据 m_iLink 属性 获得 变量 信息 表 表 项 ， 再 由 
变量 信息 表 表 项 的 m_iTypeLink 获取 变量 的 类 型 信息 。 无 论 使 用 哪 种 方式 ， 都 必须 解决 一 个 
问题 ， 那 就 是 用 户 自 定义 类 型 的 处 理 。Pascal 的 用 户 自 定义 类 型 与 C 语言 的 类 型 别名 是 一 脉 
相 承 的 。 例 如 : 


【声明 6-5】 
TYPE 
T1=integer; 
T2=T!1; 
T3=T2; 
VAR 
i:integer; 
j:T3; 
在 C 或 Pascal 中 ,通常 认为 i 与 j 的 类 型 是 相 容 的 。 虽 然 ,j 存在 多 重 的 类 型 别名 定 
义 ， 但 是 ， 这 丝毫 不 应 该 影响 编译 器 的 判断 。 在 大 多 数 语言 中 ， 类 型 相 容 都 是 基于 实际 类 型 
讨论 的 ， 即 忽略 了 那些 类 型 别名 信息 后 的 实质 类 型 。 在 Pascal 语言 中 ， 与 类 型 等 价 相 比 ， 类 
型 相 容 的 条 件 要 宽松 得 多 。 稍 后 将 给 出 GetOpType 函数 的 具体 实现 。 
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第 6 行 : 调用 SearchTypeSysTbl 函数 检索 类 型 系统 表 TypeSysTbl。 前 面 ， 笔 者 已 经 介绍 


的 Op 就 是 运算 符 单 词 的 ID， 是 由 词法 分 析 器 生成 的 。 


下 面 ， 再 来 看 看 GetOpType 函数 的 实现 。 


程序 6-2 Type.cpp 


1 
2 
3 
4 
5 
0 
有 
8 
9 


从 


StoreType CType::GetOpType(OpInfo Op) 


了 
必 


if (Op.m iType==OpInfo::CONST) 

return SymbolTbl.ConstInfoTbl.at(Op.m iLink).m StoreType; 
if (Op.m iType==OpInfo::NONE) 

return StoreTIype::T NONE; 
if (Op.m iType==OpInfo::PTR) 

return StoreType::T_POINTER:; 
if (Op.m iType==OpInfo::VAR) 
{ 

int i; 

if (IOp.m iDetailType.empty()) 

{ 

i=Op.m_iDetailType.topO.m iLink; 


while (SymbolTbl.TypeInfoTbl.at(i).m_eDataType==StoreType::T_USER) 


i=SymbolTbl.TypeInfoTbl.at().m iLink; 
return SymbolTbl.TypeInfoTbl.at(i).m eDataType; 


} 
i=SymbolTbl.VarInfoTbl.at(Op.m iLink).m iTypeLink; 


while (SymbolTbl.TypelInfoTbl.at(i).m_eDataType==StoreType::T_USER) 


i=SymbolTbl.TypeInfoTbl.at(i).m iLink; 
return SymbolTbl.TypeInfoTbl.at(i).m_eDataType; 


} 


第 3 一 4 行 : 操作 数 是 常量 ， 则 返回 常量 的 类 型 。 
第 5 一 6 行 : 操作 数 为 空 ， 则 返回 T_ NONE。 


第 7~8 行 : 操作 数 是 指针 ， 则 返回 T POINTER。 


第 9 一 23 行 : 操作 数 是 变量 ， 则 返回 其 实际 类 型 。 读 者 可 能 注意 到 了 ，Neo Pascal 分 别 


二 个 来 源 获 取 类 型 信息 。m_iDetailType 栈 仅 在 表达 式 翻 译 过 程 中 


效 。 实 际 上 ， 确 实 存 在 


些 变量 根本 不 需要 进行 表达 式 翻译 。 在 这 种 情况 下 ， 它 们 的 m_iDetailType 自然 是 空 的 ， 


Ts 


下 ， 当 m_iDetailType 栈 空 时 ， 再 从 变量 信息 表 取 相应 的 类 型 信息 。 
6.3.4 类 型 推断 的 实现 


这 里 ， 主 要 讨论 常量 的 类 型 推断 机 制 ， 或 者 说 是 常量 的 类 型 估计 。 至 于 表达 式 的 类 型 推 
断 将 在 表达 式 翻 译 章节 中 讨论 。 和 常量 类 型 的 推 岂 没有 太 多 的 理论 ， 实 现 也 是 比较 简单 的 。 一 


旦 并 不 能 因此 而 不 允许 进 行 类 型 相 容 的 验证 ， 例 如 ，for 的 循环 变量 。 为 了 安全 起 见 ， 所 以 
同时 考虑 了 两 个 类 型 来 源 。 当 然 ， 优 先 考虑 m_iDetailType 栈 顶 元 素 。 仅 在 某 些 特殊 情况 
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Se 


般 而 言 ， 常 量 类 型 


的 推断 主要 有 两 种 观点 : 


(1) 尽 可 能 使 
将 其 推断 为 double。 
(2) 尽 可 能 使 用 值 域 较 小 的 类 型 。 这 种 推断 方式 的 本 意 就 是 以 值 域 能 够 最 小 适应 常量 值 
的 类 型 推断 。 以 18 为 例 ， 既 可 以 将 其 推断 为 int， 也 可 以 将 其 推断 为 char。 按 照 本 原则 ， 纺 


HT 


译 器 会 将 18 推断 为 char。 


译 器 的 实现 是 不 尽 相 同 的 。Neo Pascal 是 根据 第 二 个 观点 实现 的 。 实 际 上 ， 简 言 之 


型 推断 就 是 常量 值 检索 各 种 类 型 的 值 域 ， 找 到 最 适合 〈 视 推断 观点 而 定 ) 的 类 型 即 


j 值 域 较 大 的 类 型 。 以 常量 23.2 为 例 ， 既 可 以 将 其 失 


按照 本 原则 ， 编 译 器 会 将 23.2 推断 为 double。 


E 汤 为 float， 也 可 以 


在 编译 器 设计 中 ， 无 论 采 用 哪 一 种 观点 都 是 可 以 接受 的 。 在 常量 类 型 推断 方面 


程序 6-3 Type.cpp 


1 void CType::ProcessConstType(int iPos) 
2  { 
3 if (SymbolTbl.ConstInfoTbl.at(iPos).m_ StoreType!=StoreType::T_NONE) 
4 return; 
5 string szTmpVal=SymbolTbl.ConstInfoTbl.at(iPos).m_ szVal; 
6 Switch (SymbolTbl.ConstInfoTbl.at(iPos).m ConstType) 
7 { 
8 case ConstType::INTEGER: 
9 { 
10 int i=atoi(szTmp Val.c_str()); 
11 if (i<0) 
12 { 
13 if (i>=-128 && i1<=127) 
14 SymbolTbl.ConstmnfoTbl.at(iPos). 
15 m StoreType=StoreType::T_SHORTINT; 
16 else 
17 if (i>=-32768 && 1<=32767) 
18 SymbolTbl.ConstInfoTbl.at(iPos). 
19 m StoreType=StoreType::T _ SMALLINT; 
20 else 
21 if (i>=-2147483648 && 1<=2147483647) 
2 SymbolTbl.ConstInfoTbl.at(iPos). 
23 m StoreType=StoreType::T_INTEGER.; 
24 } 
25 else 
26 { 
2 if (i<=255) 
28 SymbolTbl.ConstInfoTbl.at(iPos). 
29 m StoreType=StoreType::T_ BYTE:; 
30 else 
31 if (i<=65535) 
32 SymbolTbl.ConstInfoTbl.at(iPos). 
33 m StoreType=StoreType::T_ WORD; 
34 else 
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33 if (i<=4294967295) 

36 SymbolTbl.ConstInfoTbl.at(iPos). 

37 m StoreType=StoreType::T_ LONGWORD; 

38 } 

39 SymbolTbl.ConstmnfoTbl.at(iPos).m_iVal=i; 

40 SymbolTbl.ConstmfoTbl.at(iPos). 

41 m fVal=SymbolTbl.ConstInfoTbl.at(iPos).m _ iVal; 

42 };break; 

43 case ConstType::BOOLEAN: 

44 { 

45 SymbolTbl.ConstInfoTbl.at(iPos).m_ StoreType=StoreType::T BOOLEAN:; 
46 if (SymbolTbl.ConstInfoTbl.at(iPos).m _ szVal.compare("TRUE")==0) 
47 SymbolTbl.ConstInfoTbl.at(iPos).m_bVal=true; 

48 else 

49 SymbolTbl.ConstInfoTbl.at(iPos).m bVal=false; 

50 };break; 

S1 case ConstType::STRING: 

52 { 

53 if (szTmpVal.length()==1) 

54 SymbolTbl.ConstInfoTbl.at(iPos).m_ StoreType=StoreType::T_CHAR:; 
S55 else 

56 SymbolTbl.ConstInfoTbl.at(iPos). 

Sh m StoreType=StoreType::T_STRING:; 

58 };break; 

59 case ConstType::EREAL: 

60 case ConstType::REAL.: 

61 { 

62 SymbolTbl.ConstInfoTbl.at(iPos). 

63 m fVal=atof(SymbolTbl.ConstInfoTbl.at(iPos).m szVal.c_str()); 
64 if (SymbolTbl.ConstInfoTbl.at(iPos).m fVal>1.5e-45 && 

65 SymbolTbl.ConstInfoTbl.at(iPos).m fVal<3.4e38) 

66 SymbolTbl.ConstmfoTbl.at(iPos). 

07 m StoreType=StoreType::T_SINGLE; 

68 else 

69 SymbolTbl.ConstInfoTbl.at(iPos).m StoreType=StoreType::T_REAL.; 
70 };break; 

71 } 

到 } 


整 型 常量 的 类 型 推断 是 最 复杂 的 ， 因 为 其 实现 类 型 丰富 ， 又 存在 符号 的 差异 。 另 外 ， 值 
日. 说 , 是 . 
人 斑 中 里 


得 注意 的 是 常量 的 m_ConstType 信息 ， 它 并 不 是 常量 的 实际 类 型 ， 它 是 词法 分 析 时 得 到 的 类 
型 。 例 如 ， 词 法 分 析 器 能 够 分 析 得 到 32.12 是 实 型 ， 但 无 法 准确 获得 它 到 底 是 单 精度 还 是 双 


精度 。 本 程序 的 功能 就 是 根据 词法 分 析 得 到 的 一 些 初 步 类 型 信息 及 常量 字面 值 进一步 推 类 其 
实际 的 类 型 。 经 过 了 类 型 推断 的 常量 与 变量 一 样 具 有 了 非常 精准 的 类 型 信息 ， 这 有 利于 表达 
式 翻 译 与 类 型 检查 等 。 


| 
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综 上 所 述 ， 主 要 讨论 了 常量 的 类 型 推断 。 在 静态 类 型 语言 中 ， 用 户 变量 的 类 型 是 完全 由 


用 户 声明 的 ， 所 以 并 不 需要 编译 器 推断 。 编 译 器 需要 推断 的 仅仅 是 一 些 临时 变量 的 类 型 。 
类 型 的 推断 并 不 复杂 。 临 时 变量 的 作 ) 


际 上 ， 临 时 变量 


就 是 说 ， 它 的 类 型 实际 上 就 是 表达 式 的 类 型 。 然 而 ， 在 Neo Pascal 中 ， 表 达 式 类 型 的 推断 规 


[ena 
SI 


j 就 是 临时 存储 表达 式 的 中 间 结 果 ， 也 


则 已 经 在 类 型 系统 表 中 有 详尽 的 描述 ， 所 以 可 以 通过 检索 类 型 系统 表 轻 松 实现 临时 变量 的 类 
类 型 系统 表 实 现 表达 式 的 翻译 ， 将 在 下 一 节 中 详 述 。 


ha 表达 式 翻 译 


型 推断 。 关 于 如 何 应 月 


6.4.1 


Pascal 语言 所 文 持 的 表达 式 是 比较 有 限 
较 规范 的 ， 虽 然 不 及 C 语言 灵活 ， 但 也 足以 满足 实际 编程 的 需要 。 


达 式 的 文法 : 
【文法 6-1】 


表达 式 
表达 式 1 


项 
项 1 
因 式 
因 式 .1 
因子 


二 包 人 A 


关系 运算 符 
低 优先 级 运 
高 优先 级 运 


复杂 的 话题 ， 


表达 式 翻 译 基础 


入 人 大 
算 符 一 
箔 人 


算 符 


在 表达 式 文法 中 ， 没 有 将 非 终 结 符 “ 变 量 ” 展 开 。 因 为 “变量 ”涉及 数组 、 结 构 等 比较 
所 以 将 在 下 一 节 中 详细 分 析 。 


| 


项 表达 式 1 


二 惫 庆 


关系 运算 符 050 项 051 表达 式 1 | & 


因 式 项 1 


低 优先 级 运算 符 050 因 式 051 项 1 | & 


因子 因 式 1 


高 优先 级 运算 符 050 因子 051 因 式 ] | & 


变量 053 

常量 049 

( 表达 式 ) 

nil 100 

+050 因子 052 

一 050 因子 052 

not 050 因子 052 
@ 变量 053 060 


[096 表达 式 列表 097 ] 


过 | | 生育 | 和 | | 丘 


十 |-| or | xor 


* |/|div|mod | shr | shl |and 


笔者 先 来 谈 几 个 与 表达 式 有 关 的 话题 。 


(1) 运算 符 的 种 类 。 一 般 而 言 ， 运 算 符 的 种 类 并 非 越 多 越 好 。 运 算 符 


言 的 易学 、 易 


位 


FE 降 低 ， 对 语言 的 推广 是 不 利 的。 当然 ， 运 算 符 的 种 类 也 


人 


那样 


的 ， 从 形式 及 功能 上 而 言 ，Pascal 表达 式 也 是 比 
下 面 ， 就 来 看 看 Pascal 表 


过 多 ， 必 定 会 使 语 
不 能 过 少 ， 


会 


导致 语言 功能 的 不 足 。 那 么 ， 设 计 多 少 个 运算 符 为 宜 昵 ? 这 个 问题 并 没有 非常 科学 的 定论 ， 
更 多 地 依赖 于 语言 设计 者 的 经 验 。 


(2) 运算 符 的 优先 级 。 高 级 语言 的 运算 符 通 常 者 
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优先 级 差异 的 。 在 设置 运算 符 优先 


级 时 


,二 全 


运 


疏 字 
bb 


> 


， 语 言 设计 


1) 运算 习惯 。 这 是 最 重要 的 因素 ， 例 如， 加 、 减 运算 符 的 优先 级 通常 是 


符 的 。 这 是 


2) 运算 优先 级 别 不 应 过 多 。 在 实际 编程 中 ， 
LE 先 级 ， 为 了 安全 起 见 ，ff 


表达 式 语义 


者 主要 考虑 两 个 方面 的 因素 : 


一 个 数学 常识 ， 不 应 该 颠覆 。 


运算 符 ， 这 是 一 个 非常 奇怪 的 规定 ， 与 人 们 一 贯 的 逻辑 思维 


方式 是 不 符 的 。 


第 6 膏 


低 于 乘 、 除 法 


有 经 验 的 程序 员 很 少 依赖 语言 本 身 的 运算 
岂 们 更 愿意 使 用 括号 。 尤 其 当 优 先 级 过 于 复杂 时 ， 大 多 数 程 序 员 可 
更 不 信赖 优先 级 了 。 而 且 优 先 级 别 过 多 会 给 初学 者 带 来 不 便 。 虽然 C 语言 如 此 经 典 ， 但 
， 在 优先 级 设置 方面 ， 它 却 不 是 一 个 经 典范 例 。 相 对 而 言 ，Pascal 的 优先 级 别 的 数量 比较 
合适 ， 但 是 Pascal 同样 不 是 一 个 成 功 的 例子 。 根 据 标准 Pascal 的 规定 ，Pascal 的 关系 运算 符 
优化 级 低 于 逻辑 


例如 ， 书 写 这 10 and i<100 的 本 意 就 是 判断 i 的 值 是 否 界 于 (10,100) 之 间 。 不 过 ， 根 据 标准 


Pascal 的 规定 ， 由 于 and 优先 级 高 于 关系 运算 符 ， 所 以 10 and i 被 优先 计算 ， 


不 得 


不 使 用 括号 


来 改写 这 个 表达 式 。 


这 就 使 程序 员 


在 第 5 章 中 ， 笔 者 已 经 提 到 了 表达 式 翻 译 的 基本 思想 。 利 用 栈 结构 分 析 与 翻译 表达 式 的 


方式 是 比较 常见 的 ， 由 于 栈 结构 分 析 表 达 式 算法 是 数据 结构 课程 的 相关 内 容 ， 


六 
单 介 台 


当然 
下 面 


语法 


实际 上 ， 就 


绍 ， 不 作 深 入 讨论 。 
达 式 计算 法 而 言 ， 编 译 技术 中 讨论 的 法 要 比 数据 结构 课程 简单 一 些 。 


这 里 ， 只 作 简 


， 只 是 因为 


有 些 琐事 是 由 词法 分 析 器 、 语 法 分 析 器 完成 的 ， 并 不 需要 语义 


， 就 通过 


例 6-2 计算 表达 式 3+5x2-4 的 值 。 
根据 Neo Pascal 文法 ， 可 以 将 表达 式 的 推导 过 程 抽象 为 语法 分 析 树 ， 如 图 


分 析 树 中 ， 


个 完整 的 实例 来 看 看 表达 区 计算 的 过 十 程 。 


6-7 所 示 。 在 


笔者 特意 用 虚线 框 标识 语义 子 程序 ， 以 便 与 终结 符 区 别 。 事 实 上 ， 通 常 意义 


的 语法 分 析 树 只 是 用 于 描述 语法 的 推导 过 程 ， 并 不 需要 标注 语义 子 程 序 


项 表达 式 1 
A | 
因 式 项 1 8 
TRNA ~ 


2 Sl en 
\ 7 ~ 


a 


加 


6-7 表达 式 3+5X2 一 4 的 语法 分 析 树 
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不 难 发 现 ， 在 语法 分 析 树 中 只 出 现 了 三 个 语义 子 程序 (049、050、051)， 现 在 问题 的 关 
键 就 是 赋予 这 三 个 子 程序 一 定 的 语义 动作 ， 使 之 达到 预定 的 目标 。 那 么 ， 暂 且 定 义 这 三 个 子 
程序 的 语义 动作 如 下 : 

049: 将 当前 单词 压 入 操作 数 栈 。 

050: 将 当前 单词 压 入 运算 符 栈 。 

051: 从 操作 数 栈 弹出 两 个 操作 数 ， 从 运算 符 栈 弹出 一 个 运算 符 ， 进 行 相应 的 计算 ， 并 
将 计算 结果 压 入 操作 数 栈 。 这 里 ， 值 得 注意 的 是 先 出 栈 的 元 素 是 第 二 操作 数 ， 而 后 出 栈 的 元 
素 是 第 一 操作 数 。 在 处 理 一 些 不 符合 交换 律 的 运算 时 ， 必 须 加 倍 注意 。 

下 面 ， 就 来 看 看 表达 式 处 理 的 过 程 。 

对 语法 分 析 树 进行 后 序 遍 历 ， 忽 略 非 终结 符 与 “e ”后 ， 可 以 得 到 如 下 的 序列 : 


i i i 2 Oe 


sgt efor i tt 


根据 先前 定义 的 语义 动作 完成 相应 的 操作 ， 最 终 ， 操 作 数 栈 的 栈 顶 元 素 即 为 表达 式 的 


结 


如 果 分 析 过 程 完全 正确 且 不 考虑 表达 式 组 等 情况 ， 操 作 数 栈 内 有 且 仅 有 一 个 元 素 ， 而 运 
算 符 栈 应 该 为 空 。 笔 者 就 不 再 模拟 详细 的 入 、 出 栈 操作 了 ， 这 应 该 是 非常 简单 的 。 
读者 可 能 会 有 疑问 ， 包括 Neo Pascal 在 内 的 许多 编译 器 并 不 显 式 生成 语法 分 析 树 ， 那 
么 ， 又 如 何 进 行 后 序 遍 历 呢 ? 实际 上 ， 是 否 显 式 生 成 语法 分 析 树 并 不 影响 语义 动作 的 执行 。 
前 面 曾经 提 到 ， 自 上 而 下 语法 分 析 的 过 程 本 身 就 是 一 次 后 序 遍 历 ， 因 此 ， 并 不 会 影响 语义 子 
程序 的 调用 顺序 。 

上 述 常量 表达 式 的 计算 实例 ， 旨 在 说 明 编 译 器 是 如 何 计 算 表 达 式 的 。 下 面 ， 将 通过 一 
个 更 一 般 化 的 例子 ， 来 谈 谈 变量 表达 式 的 处 理 。 当 然 ， 含 有 变量 的 表达 式 是 不 可 能 由 编译 
器 在 编译 过 程 中 计算 得 到 结果 的 ， 那 么 ， 计 算 表 达 式 的 问题 就 变 成 了 如 何 将 表达 式 翻 译 成 
IR 的 问题 了 。 实 际 上 ， 这 是 非常 简单 的 ， 只 需 对 051 的 语义 动作 稍 作 修改 即 可 ， 有 具体 修改 
如 下 所 示 : 

051: 从 操作 数 栈 弹出 两 个 操作 数 ， 从 运算 符 栈 弹 出 一 个 运算 符 ， 申 请 一 个 临时 变量 用 
于 存储 计算 结果 。 生 成 形 如 (Op, Opl, Op2,T) 的 下， 并 将 临时 变量 压 入 操作 数 栈 。 

以 表达 式 itjxk-6 为 例 。 这 个 表达 式 对 应 的 语法 分 析 树 与 图 6-7 是 非常 类 似 的 ， 笔 者 就 
不 再 重 绘 了 。 后 序 遍 历 语法 分 析 树 后 ， 可 以 得 到 如 下 的 序列 : 


[ey .et i re Te a pe ME i i rf pte 


根据 先前 讨论 的 语义 动作 ， 可 以 得 到 如 下 的 及 序列， 


(MUL j ,， k ， Tl) 
(ADD I ， Tl ， T) 
(SUB T2 ， 6 ， 7T3) 


这 里 的 IR 形式 并 不 是 NPIR， 只 是 一 种 逻辑 表示 形式 而 已 。T1、T2、T3 是 编译 器 临时 
变量 ， 在 表达 式 翻译 过 程 中 ， 每 次 运算 的 结果 都 必须 用 临时 变量 保存 。 有 些 读者 可 能 会 问 : 
这 样 处 理 是 否 会 产生 大 量 的 临时 变量 呢 ? 确实 如 此 ， 不 过 ， 在 优化 阶段 及 存储 分 配 阶段 ， 编 
译 器 会 进行 相关 分 析 与 优化 ， 因 此 ， 并 不 会 影响 目标 程序 的 效率 。 

至 此 ， 笔 者 已 经 详细 解释 了 手工 实现 表达 式 的 翻译 的 过 程 ， 并 获得 了 一 个 相对 完整 的 


ul 


Tm 
准 
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IR 序列 。 这 个 过 程 就 是 实际 表达 式 翻 译 的 抽象 模型 ， 值 得 推敲 。 
6.4.2 ”深入 表达 式 翻 译 

前 面 ， 提 出 了 一 个 表达 式 翻译 的 基本 模型 ， 并 通过 实例 分 析 了 翻译 模型 的 工作 过 程 。 本 
小 节 将 在 此 基础 上 讨论 如 何 应 用 这 个 翻译 模型 生成 NPIR， 只 有 生成 了 NPIR 才 算 是 真正 意 
义 上 实现 了 表达 式 的 翻译 。 

实际 上 ， 在 先前 提出 的 翻译 模型 中 ， 忽 略 了 一 个 重要 的 元 素 一 类型。 数据 结构 课程 讨 


论 表 达 式 计算 时 ， 并 不 涉及 类 型 ， 当 然 ， 也 不 需要 涉及 类 型 。 


日 


是 不 可 忽视 的 重要 


因素 。 在 前 面 章 节 中 ， 笔 者 已 经 介 


不 过 ， 对 于 编译 器 而 言 ， 这 却 
绍 了 类 型 系统 的 相关 理论 与 实现 ， 但 始 


终 没有 将 其 应 用 到 


实际 翻译 中 。 这 里 ， 讨 论 的 重点 就 


不 是 游离 于 表达 式 而 存在 的 。 


读者 明白 类 型 系统 3 


与 翻译 模型 不 
完成 几 项 工作 : 

(1) 评估 操作 
的 。 继 续 翻 译 4 
分 析 并 报销 


成 类 

(3) 推断 结果 
的 中 间 结 果 ， 那 
于 表达 式 经 常 出 现 


/ee 


(2) 生成 类 型 转换 I 人 R。 
下 ， 编 译 器 不 必 考 虑 类 型 隐 式 转换 等 问题 。 不 过 ， 在 类 
型 转换 I 民 ， 以 


同 ， 作 为 一 个 实际 编译 器 ，Neo Pa 


是 把 类 型 系统 引入 到 表达 式 翻译 中 ， 让 


用 二 


scal 在 生成 运算 IR 之 前 ， 通 常 还 需要 


1 


数 的 相 容 性 。 操 作 数 在 给 定 的 运算 


成 IR 的 前 提 就 是 操作 数 必 须 相 容 。 如 果 操 作 数 不 相 容 ， 编 译 器 就 必须 终 J 
， 和 否则 后 续 的 翻译 与 分 析 


上 
下 


类 型 等 


宁 证 运算 IR 操作 数 的 类 型 匹配 。 


符 环 境 中 是 否 相 容 是 编译 器 设计 者 关心 


没有 任何 意义 的 。 
价 与 类 型 相 容 的 语义 处 到 


是 不 同 的。 在 类 型 等 价 的 情况 
lL 相 容 的 情况 下 ， 编 译 器 通常 需要 生 


办 二 基 
让 


= 


操作 数 的 类 型 。 在 表达 式 翻译 中 ， 
么 ， 临 时 变量 的 类 型 〈 即 运算 结果 
全 赋 值 语句 中 ， 有 些 读者 可 能 误 以 


果 的 类 型 ， 这 是 完 
站 声 :元 各 


作 数 的 类 型 与 运 


至 少 在 翻译 表达 式 时 ， 乡 
类 似 于 (ADD，B，C，A) 
了 考虑 将 了 
事实 上 ， 除 了 了 T 与 A 的 类 型 
两 者 之 间 的 隐 式 转换 问题 ， 


下 下 滞 


P， 然 后 ， 朋 


编译 器 通常 需要 使 用 临时 变量 来 存储 运 
的 类 型 ) 就 需要 由 编译 器 推断 得 到 。 由 
为 被 赋值 对 象 的 类 型 就 是 表达 式 运算 结 


月 5 赤 
全 错误 的 。 读 者 应 该 明确 


， 表 达 式 结果 操作 数 的 类 型 只 取决 于 操 
如 此 ， 


个 概念 
符 本 身 。 那 么 ， 是 不 是 表达 式 结果 
i 译 器 必须 这 人 么 做 。 肯 
这 样 的 了 及。 而 是 申请 
的 值 赋 给 A。 有 些 i 
! 完 全 等 价 的 情况 之 


所 以 临时 变量 T 是 有 


与 A 的 类 型 完全 等 价 的 避 


4 况 下 ， 为 了 使 表达 式 翻 译 


然 ， 设 计 者 也 不 希 


法 解决 这 类 问题 是 


乡 


记 
种 语法 分 析 方 式 ， 
因此 ， 编 译 器 设计 
完成 的 常量 折合 是 


:非常 有 效 日 

(4) 常量 折 装 。 
l 译 器 会 在 编译 阶段 直接 计算 得 到 其 运 
6 题 应 该 属于 编译 优化 的 范畴 。 不 过 ， 在 表达 式 翻 译 过 程 


望 产生 元 长 的 临时 变量 ， 在 后 续 亿 


的 。 
简 言 之 ， 和 常量 折 者 名 


L 


目 


人 


是 针对 那 
j 不 ， 


结果 ，1 


白 


发 现 与 处 理 这 类 问题 都 是 相对 简单 
者 都 会 考虑 将 常量 折 车 纳入 表达 式 


a 
有 限 的 ， 它 并 不 能 完 


使 编译 器 在 翻译 A:=B+C 时 ， 也 不 会 4 
个 临时 变 
卖 者 可 
， 将 T 的 值 赋 给 A 时 ， 
存在 必要 的 。 


都 是 用 临时 变量 存储 的 呢 ? 的 确 
成 直接 
T， 将 B+C 的 计算 结果 暂 存 
质疑 为 什么 需要 T 作为 暂 存 呢 ? 
有 译 器 还 需要 考虑 
在 表达 式 翻译 阶段 ， 即 使 是 工 
规程 统一 ， 也 不 必 考 虑 将 T 省 去 。 当 


化 阶段 ， 借 助 于 一 些 专门 的 及 优化 


三 


a 


日 


台 马 
能 会 


所 有 操作 数 都 是 常量 的 运算 或 表达 式 ， 
后 成 相应 的 运算 慌 。 严 格 地 说 ， 这 个 
中 ， 对 于 编译 器 来 说 ， 无 论 采 用 何 
的 ， 而 其 产生 的 效果 也 是 非常 显著 的 。 
翻译 方案 中 。 当 然 ， 表 达 式 翻译 时 可 以 


段 的 常量 折 符 算法 。 常 量 折 针 的 思想 并 


不 复杂 ， 但 是 ， 


蔡 代 优 化 阶 
体 实 现 却 比较 容易 出 错 。 除 了 常量 


~ 


的 类 型 推断 之 外 ， 编 译 器 设计 者 应 该 特 
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ee 


别 注意 编译 环境 与 运行 环境 不 一 致 可 能 导致 的 错误 。 


至 此 ， 笔 者 详 绢 


目 讨 论 了 Neo Pascal 表达 式 翻 译 的 基本 问题 。 不 过 ， 这 些 问 题 并 非 程序 设 


计 语 言 表达 式 翻 译 的 全 部 内 容 。 试 图 设计 一 个 完备 的 模型 以 应 对 一 切 程序 设计 语言 复杂 且 多 


变 的 应 


需求 可 能 是 钢 


E 劳 的 。 在 编译 器 设计 中 ， 设 计 者 经 常 需 要 对 一 些 经 典 的 翻译 模型 进行 


改进 与 完善 以 适应 不 同 语言 的 需要 ， 例 如 ，C 语言 的 布尔 表达 式 的 短路 机 制 。 这 是 编译 原理 


课程 中 


与 学 习 的 


个 非常 经 } 


o 


6.4.3 ”表达 式 翻 译 的 实现 


这 里 ， 先 简单 讨论 一 下 Neo Pascal 表达 式 翻 译 的 相关 数据 结构 。 先 前 提 到 的 翻译 模型 主 
要 涉及 两 个 栈 结构 ， 即 操作 数 栈 、 运 算 符 栈 。 声 明 形式 如 下 : 


的 翻译 话题 ， 有 兴趣 的 读者 可 以 参考 相关 书籍 ， 其 基本 思想 是 值得 借鉴 


【声明 6-6】 
stack<OpInfo> Operand; // 操 作 数 栈 
stack<int> Operation; /运算 符 栈 


Operation 栈 的 元 素 就 是 运算 符 的 ID， 所 以 


本 小 


semantic0 


再 多 作 解 释 。 下 面 ， 笔 者 来 解释 各 i 


semantic050: 
semantic049: 
semantic051: 


semantic052: 


semantic060: 
semantic053: 
semantic096: 
semantic097: 


节 只 介 引 


类 型 相 容 性 检查 


类 型 相 容 性 检查 。 


其 类 型 就 是 int。 这 两 个 栈 结构 比较 简单 ， 不 


看 义 子 程序 主要 功能 ， 以 便 读 者 理解 和 阅读 源 代码 。 


将 当前 单词 压 入 Operation 栈 。 
生成 常量 操作 数 ， 并 压 入 Operand 栈 。 
有 效 性 检查 ， 即 判断 操作 数 个 数 是 否 大 于 或 等 于 2。 


生成 双 目 运算 的 下 语句 或 进行 常量 折 镭 。 
将 结果 操作 数 压 入 Operand 栈 。 
有 效 性 检查 ， 即 判断 操作 数 个 数 是 否 大 于 或 等 于 1 。 


生成 @ 运 算 的 下 语句 。 
髓 


/ey i 


生成 单 目 运算 的 IR 语句 或 进行 常量 折 装 。 
将 结果 操作 数 压 入 Operand 栈 。 


E 成 变量 操作 数 ， 并 压 入 Operand 栈 。 
.设置 让 xpListFlag、iExpListNum 等 标志 栈 ， 用 于 收集 集合 形式 的 操作 数 。 
.生成 集合 形式 的 操作 数 及 其 及， 并 压 入 Operand 栈 。 


前 4 个 子 程序 的 实现 ， 而 semantic060、semantic053、semantic096 与 
97 将 在 后 续 章 节 中 讨论 。 


程序 6-4 semantic.cpp 


相关 文法 : 


表达 式 1 


项 1 
因 式 
因子 
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1 


一 ”关系 运算 符 050 项 051 表达 式 1 | * 


一 ” 低 优先 级 运算 符 050 
一 ”高 优先 级 运算 符 050 
一 +050 因子 052 

一 -050 因子 052 

一 not050 因子 052 


大 | 


式 051 项 1 | * 


大 | 


子 051 因 式 1 | 。 


上 DoPP 一 


“@” 运 


bool 
{ 
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semantic050() 


Operation.push(TokenList.at(iListPos-1).m iKind); 
return true; 


semantic050 获得 当前 单词 的 ID〈 即 运算 符 的 ID )， 并 将 其 压 入 Operation 栈 。 除 了 


程序 6-5 


相关 文法 : 


MD oo = 个 上 CO iD 一 


当然 


因子 
bool 
{ 


运算 符 外 ， 其 他 运算 符 都 必须 由 semantic050 压 入 Operation 栈 ， 并 无 需 区 分 是 单 目 运 
算 符 还 是 双 目 运算 符 。 


semantic.cpp 


> 常 


ja 


049 


semantic049() 


OpInfo Tmp; 

Tmp.m iType=OpInfo::CONST, 

Tmp.m iLink=atoi(TokenList.at(iListPos-1).m szContent.c_str()); 
Tmp.m_bRe 仁 false; 

Operand.push( Tmp); 

return true; 


semantic049 的 功能 就 是 为 常量 操作 数 生 成 一 个 OpInfo 的 实例 ， 并 将 其 压 入 Operand 栈 
供 翻译 表 达 式 使 用 。 设 置 m iType 属性 为 OpInfo::CONST 表示 这 个 操作 数 是 常量 操作 数 。 


， 其 m 


_iLink 属性 的 值 就 是 该 常量 符号 在 常量 信息 表 中 的 位 序号 ， 即 指向 该 常量 符号 的 


指针 。m_bRef 标志 对 于 常量 操作 数 是 没有 任何 意义 的 。 


程序 6-6 


相关 文法 : 


表达 式 1 

项 1 

因 式 1 
bool 
{ 


semantic.cpp 


一 ”关系 运算 符 050 项 051 表达 式 1 | & 
一 ” 低 优 先 级 运算 符 050 因 式 051 项 1 | & 
一 ”高 优先 级 运算 符 050 因子 051 因 式 1 | & 


semantic051() 


OpInfo Tmp1,Tmp2; 

int TmpResult; 

int TmpOperation; 

if (!Operand.empty()) 
Tmp2=Operand .top(); 


else 

{ 
EmitError(" 缺 少 操作 数 ",TokenList.at(iListPos-1)); 
return false; 

} 
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Operand.pop(O); 

if (!Operand.empty()) 
Tmp1=Operand .top(); 

else 

{ 
EmitError(" 缺 少 操作 数 ",TokenList,at(iListPos-1)); 
return false; 

} 

Operand.pop(); 

if (!Operation.empty()) 
TmpOperation=Operation.top(); 


else 

{ 
EmitError(" 缺 少 操作 数 ",TokenList'at(iListPos-1)); 
return false; 

} 

Operation.pop(); 


TmpResult=CType::TypeCompatible(Tmp1,Tmp2,TmpOperation); 
if (TmpResult!=-1) 


{ 
if (Tmpl.m iType==OpInfo::CONST && Tmp2.m iType==OpInfo::CONST) 
{ 
return OpConstSemantic(Tmp1,Tmp2,SymbolTbl.TypeSysTbl.at( TmpResult) 
.m iProcessld,SymbolTbl.TypeSysTbl.at(TmpResult).m iRsltType); 
} 
else 
{ 
OpInfo TmpRslt; 
TmpRslt.m iType=OpInfo::VAR.; 
TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
(StoreType)SymbolTbl.TypeSysTbl.at( TmpResult).m iRsltType); 
if (OpVarSemantic(Tmp1,Tmp2,TmpR slt, 
SymbolTbl.TypeSysTbl.at(TmpResult))==false) 
return false; 
Operand.push(TmpRslt); 
} 
return true; 
} 
else 
{ 
EmitError(" 操 作 数 类 型 不 兼容 ",TokenL ist.at(iListPos-1)); 
return false; 
} 
return true; 


简单 的 ， 读 者 只 需 注意 以 下 两 个 要 点 : 


元 素 是 出 栈 的 元 素 才 是 多 


说 ， 


统 表 。 当 TypeCompatible 函数 返 
的 。 当 TypeCompatible 函数 返 


第 6 一 29 行 : 从 Operand、Operation 栈 获 取 第 一 、 二 操作 数 及 运 售 


第 二 操 


确实 可 以 省 


乍 数 ， 后 
了 严格 的 栈 空 检查 。 有 些 读 者 可 能 会 有 疑问 ， 这 里 的 三 个 栈 空 检查 是 否 有 必要 ? 从 


AAA 


A = 


bE 


各 这 三 个 栈 空 检查 ， 因 
过 ， 这 并 不 是 一 种 良好 的 编程 习惯 ， 所 以 笔者 不 
第 30 行 : 根据 第 一 、 二 操作 数 类 型 及 运 


让 
， 操 


一 操作 数 。 


AAA 一 


条 一 ， 
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为 语 当 


口 


-1 时 ， 则 


口 


算 符 ID，j 


符 。 这 个 过 程 是 比较 
作 数 的 顺序 。 由 于 栈 的 特性 ， 


栈 访问 的 安全 性 。 这 


所 以 先 出 栈 的 
里 笔者 进行 
里 论 上 来 


分 析 器 完全 有 能 力 保证 栈 访问 的 安全 性 。 不 


E 荐 使 用 。 
周 


表示 两 个 操 


和 F 数 在 给 定 运 入 


大 于 或 等 于 0 的 值 时 ， 贝 


I 表示 两 个 操作 数 在 给 


用 TypeCompatible 函数 检索 类 型 系 
符 环 境 下 是 不 相 容 


ys 
契 运 


符 环 境 


下 是 相 容 的 ， 且 给 出 了 相应 的 翻译 规则 。 所 谓 “ 翻 译 规 则 ”就 是 指 类 型 系统 表 的 一 个 表 项 。 
前 面 已 经 详细 解释 了 类 型 系统 表 的 相关 结构 与 声明 ， 不 再 袭 述 。 
第 33 行 : 判断 两 个 操作 数 是 否 都 是 常量 ， 如 果 都 是 常量 ， 则 进行 常量 折合 ， 否 则 进行 


系统 表 表 ] 
即 可 。 关 于 OpConstSemantic 函数 的 详细 实现 稍 
个 临时 变量 用 以 存 
FE 决定 。 值 
计算 结果 类 
性 足以 描述 结果 类 型 。 
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41 一 43 行 : 申请 
型 系统 表 表 项 的 m_iRsltType 属 怕 


、36 行 : 调用 OpConstSemantic 完成 


项 的 m_iProcessId 属性 和 m_iRsltType 属性 


对。 由 于 前 面 已 经 检查 了 操作 数 的 相 容 性 ， 所 以 这 里 3 


本 三 疯 


不 需 


者 要 额 儿 


常量 折 和 县。 


人 


型 只 


OpVarSemantic 项 
下 面 ， 再 来 看 
如 果 操 作 数 满足 常 
用 OpVarSemantic 函 


第 44、45 行 : 调 月 


出 


类 型 


可 能 是 基本 
不 过 ， 在 C++ 等 面向 对 象 语言 
推断 结果 类 型 可 能 会 复杂 一 些 。 
有 OpVarSemantic 完成 表达 式 翻 译 。 将 两 个 操作 数 、 运 入 
统 表 表 项 、 结 果 操 作 数 作为 参数 传递 给 OpConstSemantic 孙 数 即 可 ， 生 成 IR 的 了 
成 。 关 于 OpVarSemantic 函数 的 详细 实现 稍 


数 完 
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pe 
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折 县 。OpVarSemantic 的 设计 思想 


IR。 


Neo Pascal 类 型 系统 表 规 模 太 大 ， 笔 者 仅 截取 了 


操作 符 


简 言 之 


操作 数 1 类 


， 就 是 模 


和 


型 


居 类 型 系统 表 表 项 的 m_iVarProcessId 属性 ， 
I 系统 表 中 ， 


Neo Pascal 的 类 型 


而 不 可 


非常 简单 ， 


后 分 析 。 


嵌 表 达 式 的 计 各 


看 OpVarSemantic、OpConstSemantic 的 实现 纪 


J++ 


和 
折 又 的 要 求 ， 则 调用 OpConstSemantic 函数 计 
生成 计算 的 他。 当 表 达 式 的 操作 数 不 都 为 常量 时 ， 
即 根据 类 型 系统 表 表 项 的 相关 描述 生成 相应 的 


后 分 


判断 。 
这 里 ， 只 需 将 两 个 操作 数 、 类 型 
作为 参数 传递 给 OpConstSemantic 函数 


结果 ， 而 临时 变量 的 类 型 6 


导 注 意 的 是 ，C、Pascal 的 表达 式 都 比较 简单 ， 
能 是 复杂 类 型 (数组 、 结 构 等 )， 故 m_iRsltType 
PFP， 人 允许 表达 式 的 结果 类 型 是 复杂 类 型 


ff。 
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表 6-3 Neo Pascal 类 型 系统 表示 例 


操作 数 2 类 型 


结果 操作 数 类 型 


变量 操作 码 


IR 操 


完成 相应 


的 语义 动作 。 在 


> 


年 符 


一 共 设 置 了 5 种 语义 动作 ， 分 别 以 编号 1~5 标识 。 由 于 
中 数 行 表 项 为 例 


见 表 6-3。 


类 型 转换 1 


F 实 际 的 


T_CHAR 


T_CHAR 


T_BOOLEAN 


EQU_ 


None 


None 


T_CHAR 


T_STRING 


T_BOOLEAN 


EQU_ 


eel 


ChrToStr 


None 


T_INTEGE 
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T_SHORTINT 


T_BOOLEAN 


EQU 
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ShortToInt 


None 


T_ENUM 


T_ENUM 


T_BOOLEAN 


EQU_ 


None 


None 


T_BYTE 


T_SHORTINT 


T_BOOLEAN 


EQU . 


ByteToSmall 


ShortToSmall 
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注意 ， 为 了 便于 阅读 ， 这 里 给 出 的 类 型 系统 表 是 未 经 编码 的 ， 并 且 直 接 以 字段 的 中 文 含 
义 标 识 列 名 。 其 中 ， 变 量 操作 码 即 为 m_iVarProcessId 属性 。 下 面 ， 就 针对 这 5 种 语义 动作 
逐一 解释 ， 如 表 6-4 所 示 。 


表 6-4 变量 操作 码 对 应 的 语义 动作 


变量 操作 码 语义 动作 说 明 

表示 无 需 进行 类 型 转换 。 当 操作 数 1、 操 作 数 2 的 类 型 完全 等 价 或 其 他 特殊 情况 时 ， 编 译 器 无 需 作 任何 类 
型 转换 ， 直 接 按照 “IR 操作 符 ” 生 成 展 即 可 。 例 如 ， 第 1 行 表 项 就 是 如 此 。 该 表 项 用 于 描述 两 个 char 类 型 
操作 数 在 进行 等 号 运算 时 的 相关 类 型 处 理 信 息 。 由 于 两 个 char 类 型 操作 数 进行 等 号 运算 时 并 不 需要 进行 任 
1 何 转 换 ， 所 以 “类 型 转换 1” “类 型 转换 2” 都 是 “None”。 在 翻译 这 类 表达 式 时 ， 主 要 完成 如 下 工作 : 

1. 根据 “结果 操作 数 类 型 ”申请 一 个 boolean 类 型 的 临时 变量 _T。 

2. 依据 “IR 操作 符 ” 生 成 一 条 信 指令 : 

(EQU 1, Opl1 ,Op2, T) 

表示 操作 数 1 需要 进行 类 型 转换 。 这 种 情况 表明 操作 数 之 间 是 相 容 而 不 等 价 的 ， 编 译 器 需要 对 操作 数 1 
作 隐 式 类 型 转换 后 ， 才 能 生成 了 及 。 例 如， 第 2 行 表 项 就 是 如 此 。 该 表 项 用 于 描述 一 个 char 类 型 操作 数 与 一 
个 string 类 型 操作 数 在 进行 等 号 运算 时 的 相关 类 型 处 理 信息 。 由 于 char 类 型 与 string 类 型 数据 的 存储 形式 完 
全 不 同 ， 一 般 而 言 ， 需要 将 char 类 型 数据 转换 为 string 类 型 数据 后 ， 才 能 进行 后 续 分 析 ， 所 以 “类 型 转换 
1” 为 “ChrToStr”。 在 翻译 这 类 表达 式 时 ， 主 要 完成 如 下 工作 : 
2 1. 根据 “结果 操作 数 类 型 ”申请 一 个 boolean 类 型 的 临时 变量 _T。 

2. 申请 一 个 string 类 型 的 临时 变量 _T1 。 

3. 根据 “类 型 转换 1” 生 成 一 条 类 型 转换 IR 指令 : 

CChrToStr ,Opl , NULL, _T1) 

4. 根据 “IR 操作 符 ” 生 成 一 条 IR 指令 : 

(EQU S，T1 ,0p2，T) 

表示 操作 数 2 需要 进行 类 型 转换 。 这 种 情况 表明 操作 数 之 间 是 相 容 而 不 等 价 的 ， 编 译 器 需要 对 操作 数 2 
作 隐 式 类 型 转换 后 ， 才 能 生成 及。 例如， 第 3 行 表 项 就 是 如 此 。 该 表 项 用 于 描述 一 个 integer 类 型 操作 数 与 
一 个 shortint 类 型 操作 数 在 进行 等 号 运算 时 的 相关 类 型 处 理 信息 。 由 于 integer 类 型 与 shortint 类 型 数据 的 存 
储 形式 不 同 ， 一 般 而 言 ， 需要 将 shortint 类 型 数据 转换 为 integer 类 型 数据 后 ， 才 能 进行 后 续 分 析 ， 所 以 
“类 型 转换 2” 为 “ShortToInt”。 在 翻译 这 类 表达 式 时 ， 主 要 完成 如 下 工作 : 
3 1. 根据 “结果 操作 数 类 型 ”申请 一 个 boolean 类 型 的 临时 变量 _T。 

2. 申请 一 个 integer 类 型 的 临时 变量 Tl1。 

3. 根据 “类 型 转换 2” 生 成 一 条 类 型 转换 IR 指令 : 

(ShortToInt, Op2, NULL, _T1) 

4. 根据 “IR 操作 符 ” 生 成 一 条 IR 指令 : 

(EQU 4,Opl, Tl1, T) 

这 是 一 个 比较 特殊 的 语义 动作 ， 它 的 处 理 对 象 必定 是 两 个 枚 举 类 型 操作 数 。 在 Pascal 语言 中 ， 虽 然 枚 举 
值 最 终 是 以 整 型 存储 的 ， 但 是 却 不 能 因为 这 个 原因 忽视 枚 举 类 型 的 特殊 性 。 两 个 枚 举 值 进行 关系 运算 的 前 提 
是 这 两 个 操作 数 所 属 的 枚 举 类 型 必须 一 致 。 例 如 ， 


VAR 
4 p:(ab,c); q:(d,e,f); 
p=a; q=d; 
显然 ，p 与 q 实际 存储 的 数据 是 同样 的 ， 但 是 讨论 p 与 q 的 关系 运算 是 没有 意义 的 。 先 前 的 类 型 相 容 性 判 
断 是 不 能 达到 这 一 目标 的 ， 所 以 在 处 理 枚 举 类 型 变量 运算 时 ， 需 要 进行 相应 的 有 效 性 判断 。 请 读者 参见 表 
6-3 第 4 行 示例 ， 详 细 的 翻译 方式 与 语义 动作 1 类 似 ， 这 里 不 再 歼 述 
表示 操作 数 1、 操 作 数 2 都 需要 进行 类 型 转换 。 这 种 情况 表明 操作 数 之 间 是 相 容 而 不 等 价 的 ， 编 译 器 需要 
对 操作 数 1、 操 作 数 2 作 隐 式 类 型 转换 后 ， 才 能 生成 他。 例如 ， 第 5 行 表 项 就 是 如 此 。 该 表 项 用 于 描述 一 个 
byte 类 型 操作 数 与 一 个 shortint 类 型 操作 数 在 进行 等 号 运算 时 的 相关 类 型 处 理 信息 。 由 于 byte 类 型 与 shortint 
类 型 都 是 1 字 节 变量 ， 但 是 前 者 是 无 符号 形式 ， 而 后 者 是 有 符号 形式 ， 所 以 无 法 直接 比较 。 一 般 而 言 ， 需 
要 同时 将 byte 和 shortint 类 型 数据 同时 转换 为 2 字 节 有 符号 类 型 数据 后 ， 才 能 进行 后 续 分 析 ， 所 以 “类 型 转 
5 换 1” 为 “ByteToSmall”， 而 “类 型 转换 2” 为 “ShortToSmall”。 当 然 ，Pascal 语言 的 这 种 处 理 方式 是 比较 保 
守 且 安全 的 ， 但 并 不 排除 有 些 语言 可 能 采用 一 些 比较 激进 的 方式 来 处 理 这 类 问题 。 在 翻译 这 类 表达 式 时 ， 主 
要 完成 如 下 工作 : 
1. 根据 “结果 操作 数 类 型 ”申请 一 个 boolean 类 型 的 临时 变量 _T。 
2. 申请 一 个 Smallint 类 型 的 临时 变量 Tl 。 
3. 根据 “类 型 转换 1” 生 成 一 条 类 型 转换 IR 指令 : 


(ByteToSmall, Op1 , NULL,_T1) 
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4. 申请 一 个 Smallint 类 型 的 临时 变量 T2 。 

5. 根据 “类 型 转换 2” 生 成 一 条 类 型 转换 IR 指令 : 
5 (ShortToSmall, Op2 ,NULL ，T2) 

6. 根据 “IR 操作 符 ” 生 成 一 条 IR 指令 : 


(EQU 2, TI1, T2, T) 


无 论 是 双 目 运算 表达 式 ， 还 是 单 目 运算 表达 式 ， 都 是 由 OpVarSemantic 函数 生成 代 
的 ， 而 生成 IR 的 依据 就 是 类 型 系统 表 。 下 面 ， 再 来 看 OpVarSemantic 函数 的 源 代 码 实现 。 


星 序 6-7 semantic.cpp 


1 bool OpVarSemantic(OpInfo Op1,OpInfo Op2,OpInfo Rslt,TypeSysInfo Tmp) 
ol : 
3 vector<IRCode> *P=&SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes; 
4 switch (Tmp.m iVarProcessId) 
5 
6 case 1: 
7 
8 P->push_ back(EmitIR(OpType(Tmp.m iIR),Op1,Op2,Rslt)); 
9 };break; 
10 case 2: 
11 { 
12 OpInfo TmpOp; 
13 TmpOp.m iType=OpInfo::VAR; 
14 TmpOp.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
15 (OpType)Tmp.m Convertl); 
16 P->push_ back(EmitIR((OpType)Tmp.m Convertl,Op1,TmpOPp)); 
i P->push_ back(EmitIR((OpType)Tmp.m iIR,TmpOp,Op2,Rslt)); 
18 };break; 
19 case 3: 
20 { 
21 OpInfo TmpOp; 
2 TmpOp.m iType=OpInfo::VAR; 
23 TmpOp.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
24 (OpType)Tmp.m Convertl); 
25 P->push_ back(EmitIR((OpType)Tmp.m Convertl,Op2,TmpOPp)); 
26 P->push_back(EmitIR((OpType)Imp.m_iIR,Op1,TmpOPp,Rsltb); 
2 };break; 
28 case 4: 
29 { 
30 if (CType::GetOpTypeLink(Op1)==CType::GetOpTypeLink(Op2)) 
31 P->push_ back(EmitIR(OpType(Tmp.m iIR),Op1,Op2,Rslt)); 
32 else 
33 { 
34 EmitError(" 枚 举 类 型 不 匹配 ",TokenList.at(iListPos-1)); 
35 return false; 
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36 } 

37 };break; 

38 case 5: 

39 { 

40 OpInfo TmpOp1,TmpOp2; 

41 TmpOpl.m iType=OpInfo::VAR; 

42 TmpOpl.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
43 (OpType)Tmp.m Convertl); 

44 TmpOp2.m iType=OpInfo::VAR; 

45 TmpOp2.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 
46 (OpType)Tmp.m Convert?2); 

47 P->push_ back(EmitIR((OpType)Tmp.m Convertl,Op1,TmpOp!1)); 

48 P->push_back(EmitIR((OpType)Imp.m_Convert2,Op2,TmpOp2)); 

49 P->push_back(EmitIR((OpType)Imp.m_iR,TmpOp1,TmpOPp2,Rslt)); 
50 };break; 

51 } 

52 return true; 

SS } 


里 解 了 类 型 系统 表 m_iVarProcessId 属性 的 含义 及 其 相应 的 语义 动作 后 ， 分 析 表 达 式 翻 
译 函数 OpVarSemantic 的 源 代码 就 变 得 非常 容易 了 。 详 细 的 源 代码 注释 似乎 已 经 没什么 意义 
了 ， 这 里 ， 笔 者 只 想 对 其 中 的 SymbolTbl.GetTmpVar 函数 稍 作 解释 。 
在 OpVarSemantic 函数 中 ， 调 用 了 一 个 SymbolTbl.GetTmpVar 函数 。 不 过 ， 这 个 函数 
是 GetTmpVar 的 另 一 种 重 载 形式 ， 它 的 第 2 个 参数 的 类 型 是 OpType〈( 即 IR 操作 符 )。 根 
据 这 个 OpType 类 型 的 参数 ， 函 数 得 到 相应 的 类 型 信息 ， 并 以 此 类 型 信息 申请 临时 变量 。 
注意 ， 函 数 对 第 2 个 参数 是 有 一 定 限制 的 ， 必 须 是 NPIR 中 类 型 转换 相关 操作 符 ， 因 为 上 
有 这 类 操作 符 才 包括 类 型 信息 ， 例 如 ，ChrToStr、ByteTomt 等 。 获 得 了 临时 变量 的 类 型 
县 后 ， 函 数 就 按照 标准 的 申请 流程 完成 临时 变量 的 申请 即 可 。 由 于 相关 源 代 码 比较 简单 ， 
就 不 再 详细 列 出 。 

下 面 ， 再 来 谈 谈 常量 折 针 的 相关 实现 。 这 里 的 常量 折 装 的 基本 思想 与 表达 式 翻译 是 比较 
类 似 的 ， 它 也 是 基于 类 型 系统 表 完 成 的 ， 只 不 过 它 需 要 处 理 的 分 支 情 况 要 多 得 多 。 在 Neo 
Pascal 表达 式 分 析 过 程 中 ， 合 法 的 常量 折合 情形 一 共有 47 种 。 不 过 ， 这 47 种 分 支 的 工作 流 
程 都 是 同样 的 ， 即 根据 运算 符 及 不 同类 型 的 操作 数 ， 由 编译 器 在 编译 阶段 计算 结果 ， 并 将 结 
果 压 入 Operand 栈 ， 常 量 折合 的 过 程 并 不 生成 任何 IR。 


| 


pe 


了 由 
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程序 6-8 _ Semantic.cpp 
1 bool OpConstSemantic(OpInfo Op1,OpInfo Op2,int iProcessId,int iReturnType) 


2 

3 OpInfo Rslt; 

4 if (I!OpConstFold(Op1,Op2,iProcessId,iReturnType, Rslt)) 
S return false; 

6 Operand.push(Rslt); 

7 return true; 
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bool OpConstFold(OpInfo Op1,OpInfo Op2,int iProcessld,int iReturnType,OpInfo &Rslt) 
{ 
ConstInfo RsltConst,Op1Const,Op2Const; 
Rslt.m iType=OpInfo::CONST, /设置 结果 操作 数 的 m_iType 属性 
RsltConst.m StoreType=(StoreType)iReturnType; /设置 结果 操作 数 的 m_StoreType 属性 
OplConst=SymbolTbl.ConstInfoTbl.at(Opl.m Link); /获取 操作 数 1 的 常量 信息 
if (Op2.m iType!=OpInfo::NONE) 
Op2Const=SymbolTbl.ConstInfoTbl.at(Op2.m_iLink);// 获 取 操 作 数 2 的 常量 信息 


Switch (iProcessId) /根据 m_iProcessId 属性 ， 执 行 相关 的 语义 动作 

{ 

case 1: //1、 boolean=boolean 2、string(char)=string(char) 3、pointer=pointer 
{ 


RsltConst.m bVal=OplConst.m szVal.compare(Op2Const.m szVal)==0; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 2: // 整 型 ( 实 型 = 整 型 ( 实 型 ) 
{ 


RsltConst.m_ bVal=OplConst.m fVal==Op2Const.m fVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 3: //1、boolean<>boolean 2、string(char)<>string(char) 3、pointer<>pointer 
{ 
RsltConst.m bVal=OplConst.m szVal.compare(Op2Const.m szVal)!=0; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 4: // 整 型 ( 实 型 ) 二 整 型 ( 实 型 ) 


下 


RsltConst.m_ bVal=OplConst.m fVall=Op2Const.m fVal; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 5: //string(char)<string(char) 
{ 
RsltConst.m bVal=OplConst.m szVal.compare(Op2Const.m szVal)<0; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 6: //boolean<boolean 


. 
1 


RsltConst.m bVal=OplConst.m bVal<Op2Const.m bVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 7: // 整 型 ( 实 型 )< 整 型 ( 实 型 ) 


下 
划 


RsltConst.m bVal=OplConst.m fVal<Op2Const.m fVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
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case 8: //string(char)>string(char) 


{ 


RsltConst.m_ bVal=OplConst.m szVal.compare(Op2Const.m szVal)>0; 


RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 9: //boolean>boolean 


. 
1 


RsltConst.m_ bVal=OplConst.m bVal>Op2Const.m_bVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 10: // 整 型 ( 实 型 > 整 型 ( 实 型 ) 
{ 


RsltConst.m bVal=OplConst.m fVal>Op2Const.m fVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 11: //string(char)<=string(char) 


下 
人 


RsltConst.m bVal=OplConst.m szVal.compare(Op2Const.m szVal)<=0 


RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 


} 


case 12: //boolean<=boolean 
{ 
RsltConst.m bVal=OplConst.m bVal<=Op2Const.m _bVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 13: // 整 型 ( 实 型 )<= 整 型 ( 实 型 ) 
{ 


RsltConst.m bVal=OplConst.m fVal<=Op2Const.m fVal; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 14: //string(char)>=string(char) 


{ 


RsltConst.m bVal=OplConst.m szVal.compare(Op2Const.m szVal)>=0 


RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 15: //boolean>=boolean 
{ 
RsltConst.m bVal=OplConst.m bVal>=Op2Const.m bVal; 
RsltConst.m szName=RsltConst.m bValf?"TRUE":"FALSE"; 
};break; 
case 16: // 整 型 ( 实 型 )>= 整 型 ( 实 型 ) 


下 
1 


RsltConst.m bVal=OplConst.m fVal>=Op2Const.m fVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 17: // 整 型 ( 实 型 )- 整 型 ( 实 型 ) 


? 
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{ 
RsltConst.m fVal=OplConst.m fVal-Op2Const.m fVal; 
char cBuffer[20]; 
gcvt(RsltConst.m fVal,10,cBuffer); 
RsltConst.m_ szName=cBuffer; 
};break; 
case 18: //string(char)+string(char) 
{ 
RsltConst.m_ szVal.append(OplConst.m szVal); 
RsltConst.m szVal.append(SymbolTbl.ConstInfoTbl.at(Op2.m iLink).m szVal); 
RsltConst.m szName=RsltConst.m szVal; 
};break; 
case 19: // 整 型 ( 实 型 )+ 整 型 ( 实 型 ) 
{ 
RsltConst.m fVal=OplConst.m fVal+Op2Const.m fVal; 
char cBuffer[50]; 
gcvt(RsltConst.m fVal,10,cBuffer); 
RsltConst.m_ szName=cBuffer; 
};break; 
case 20: //boolean or boolean 
{ 
RsltConst.m bVal=OplConst.m bVal || Op2Const.m _bVal; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 21: // 整 型 or 整 型 
{ 
RsltConst.m iVal=OplConst.m iVal | Op2Const.m iVal; 
char cBuffer[50]; 
RsltConst.m fVal=RsltConst.m iVal; 
itoa(RsltConst.m iVal,cBuffer,10); 
RsltConst.m_ szName=cBuffer; 
};break; 
case 22: //boolean xor boolean 
{ 
RsltConst.m bVal=OplConst.m bVal ^ Op2Const.m_ bVal; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 23: // 整 型 xor 整 型 
{ 
RsltConst.m iVal=OplConst.m 1iVal ^ Op2Const.m iVal; 
char cBuffer[50]; 
RsltConst.m fVal=RsltConst.m iVal; 
itoa(RsltConst.m iVal,cBuffer,10); 
RsltConst.m szName=cBuffer; 
};break; 
case 24: // 整 型 ( 实 型 ) * 整 型 ( 实 型 ) 
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147 { 

148 RsltConst.m fVal=OplConst.m fVal*Op2Const.m fVal; 
149 char cBuffer[50]; 

150 gcvt(RsltConst.m fVal,10,cBuffer); 

151 RsltConst.m_ szName=cBuffer; 

152 };break; 

153 case 25: // 整 型 ( 实 型 )/ 整 型 ( 实 型 ) 

154 { 

ISS if (Op2Const.m fVal==0) 

156 { 

157 EmitError(" 除 数 不 能 为 ",TokenList.at(iListPos-1)); 
158 return false; 

159 } 

160 RsltConst.m fVal=OplConst.m fVal/Op2Const.m fVal; 
161 char cBuffer[ 50]; 

162 gcvt(RsltConst.m fVal,10,cBuffer); 

163 RsltConst.m_ szName=cBuffer; 

164 };break; 

165 case 26: // 整 型 div 整 型 

166 { 

167 if (Op2Const.m iVal=—0) 

168 { 

169 EmitError(" 除 数 不 能 为 ",TokenList.at(iListPos-1)); 
170 return false; 

171 } 

I RsltConst.m iVal=OplConst.m iVal/ Op2Const.m iVal; 
173 char cBuffer[50]; 

174 RsltConst.m fVal=RsltConst.m iVal; 

LS itoa(RsltConst.m iVal,cBuffer,10); 

176 RsltConst.m_ szName=cBuffer; 

ly };break; 

178 case 27: // 整 型 mod 整 型 

179 { 

180 if (Op2Const.m iVal==0) 

181 { 

182 EmitError(" 除 数 不 能 为 ",TokenList.at(iListPos-1)); 
183 return false; 

184 } 

185 if (OplConst.m 1Val<0) 

186 { 

187 EmitError(" 被 求 模 数 不 允许 小 于 ",TokenList.at(iListPos-1)); 
188 return false; 

189 } 

190 RsltConst.m iVal=OplConst.m iVal % Op2Const.m 1Val; 
191 char cBuffer[50]; 

192 RsltConst.m fVal=RsltConst.m iVal; 
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itoa(RsltConst.m iVal,cBuffer,10); 
RsltConst.m_ szName=cBuffer; 
};break; 
case 28: // 整 型 shr 整 型 


人 
1 


if (Op2Const.m_ iVal<0 || Op2Const.m iVal>255) 
{ 


EmitError(" 移 位 量 只 能 介 于 0~255 之 间 ",TokenList.at(iListPos-1)); 
return false; 


} 

RsltConst.m iVal=OplConst.m iVal >> Op2Const.m iVal; 
char cBuffer[50]; 

RsltConst.m fVal=RsltConst.m iVal; 

itoa(RsltConst.m iVal,cBuffer,10); 

RsltConst.m_ szName=cBuffer; 


};break; 
case 29: // 整 型 shl 整 型 
{ 
if (Op2Const.m iVal<0 || Op2Const.m iVal>255) 
{ 
EmitError(" 移 位 量 只 能 介 于 0~255 之 间 ",TokenList.at(GiListPos-1)); 
return false; 
} 
RsltConst.m iVal=OplConst.m iVal << Op2Const.m iVal; 
char cBuffer[50]; 


itoa(RsltConst.m iVal,cBuffer,10); 
RsltConst.m fVal=RsltConst.m iVal; 
RsltConst.m_ szName=cBuffer; 
};break; 
case 30: // 整 型 and 整 型 


人 
1 


RsltConst.m iVal=OplConst.m iVal & Op2Const.m iVal; 
char cBuffer[50]; 
RsltConst.m fVal=RsltConst.m iVal; 
itoa(RsltConst.m iVal,cBuffer,10); 
RsltConst.m szName=cBuffer; 
};break; 
case 31: //boolean and boolean 


KF 
1 


RsltConst.m_ bVal=OplConst.m bVal && Op2Const.m bVal; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 32: //set * set 
{ 
RsltConst.m szSet=SetMul(OplConst.m szSet,Op2Const.m szSet); 
RsltConst.m szName=RsltConst.m szSet; 
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239 };break; 

240 case 33: // 一 整 型 ( 实 型 ) 

241 { 

242 RsltConst.m fVal=-OplConst.m fVal; 

243 char cBuffer[50]; 

245 gcvt(RsltConst.m fVal,10,cBuffer); 

246 RsltConst.m_ szName=cBuffer; 

247 };break; 

248 case 34: /not 整 型 

249 { 

250 RsltConst.m iVal=~OplConst.m iVal; 

251 char cBuffer[50]; 

52 RsltConst.m fVal=RsltConst.m iVal; 

253 itoa(RsltConst.m iVal,cBuffer,10); 

254 RsltConst.m_ szName=cBuffer; 

255 };break; 

256 case 35: //not boolean 

ZY { 

258 RsltConst.m_bVal=!OplConst.m bVal; 

259 RsltConst.m_SzName=RsltConstm_ bVal?"TRUE'":"FALSE"; 
260 };break; 

261 case 30: //enum = enum 

262 +‘ 

263 if (OplConst.m iEnumldx!=Op2Const.m iEnumldx) 

264 { 

265 EmitError(" 枚 举 类 型 不 兼容 ",TokenList.at(iListPos- 1)); 
200 return false; 

267 } 

268 RsltConst.m_ bVal=OplConst.m szName.compare(Op2Const.m szName)==0; 
269 RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
270 };break; 

271] case 37: //enum <> enum 

2 { 

2 if (OplConst.m iEnumldx!=Op2Const.m iEnumldx) 

274 { 

pos EmitError(" 枚 举 类 型 不 兼容 ",TokenList.at(iListPos-1)); 
276 return false; 

ZI } 

278 RsltConst.m bVal=OplConst.m szName.c_str()!=Op2Const.m szName.c str(); 
272 RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
280 };break; 

281 case 38: //set = set 

282 { 

283 RsltConst.m bVal=OplConst.m szSet.compare(Op2Const.m szSet)==0; 
284 RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 
285 };break; 
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case 39: //set <> set 
{ 
RsltConst.m_ bVal=OplConst.m szSet.compare(Op2Const.m szSet)!=0; 
RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 


};break; 
case 40: // 整 型 in set 
{ 
if (OplConst.m iVal<0 || OplConst.m iVal>255) 
{ 
EmitError(" 集 合 元 素 只 能 介 于 0~255 之 间 ",TokenList.at(iListPos-1)); 
return false; 
} 


RsltConst.m bVal=Op2Const.m szSet.at(OplConst.m iVal)—'1'; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 41: /set - set 
RsltConst.m szSet=SetDel(OplConst.m szSet,Op2Const.m szSet); 
RsltConst.m_ szName=RsltConst.m szSet; 
};break; 
case 42: //set + set 
{ 
RsltConst.m szSet=SetAdd(OplConst.m szSet,Op2Const.m szSet); 
RsltConst.m szName=RsltConst.m szSet; 


};break; 
case 43: //char in set 
{ 
i1f (OplConst.m szVal[0]<0 || OplConst.m szVal[0]>255) 
{ 
EmitError(" 集 合 元 素 只 能 介 于 0~255 之 间 ",TokenList.at(iListPos-1)); 
return false; 
} 


RsltConst.m bVal=Op2Const.m szSet.at(OplConst.m szVal[0])=="1'; 
RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 
case 44: //enum > enum 
{ 
if (OplConst.m iEnumldx!=Op2Const.m iEnumldx) 
{ 


EmitError(" 枚 举 类 型 不 兼容 ",TokenList.at(iListPos-1)); 
return false; 


} 
RsltConst.m_ bVal=OplConst.m iVal>Op2Const.m iVal; 


RsltConst.m szName=RsltConst.m bVal?"TRUE":"FALSE"; 
};break; 


case 45: //enum >= enum 
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33 { 

333 if (OplConst.m iEnumldx!=Op2Const.m iEnumldx) 

334 { 

335 EmitError(" 枚 举 类 型 不 兼容 ",TokenList.at(iListPos-1)); 

336 return false; 

337 } 

338 RsltConst.m_ bVal=OplConst.m iVal>=Op2Const.m iVal; 

339 RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 

340 };break; 

341 case 46: //enum < enum 

342 { 

343 if (OplConst.m iEnumldx!=Op2Const.m iEnumldx) 

344 { 

345 EmitError(" 枚 举 类 型 不 兼容 ",TokenList.at(iListPos-1)); 

346 return false; 

347 } 

348 RsltConst.m_ bVal=OplConst.m iVal<Op2Const.m iVal; 

349 RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 

350 };break; 

351 case 47: //enum <= enum 

352 { 

353 if (OplConst.m iEnumldx!=Op2Const.m iEnumldx) 

354 { 

355 EmitError(" 枚 举 类 型 不 兼容 ",TokenList.at(iListPos-1)); 

356 return false; 

350 } 

358 RsltConst.m_ bVal=OplConst.m iVal<=Op2Const.m iVal; 

359 RsltConst.m_ szName=RsltConst.m bVal?"TRUE":"FALSE"; 

360 };break; 

361 } 

362 // 分 析 得 到 计算 结果 的 类 型 

363 switch ((StoreType)iReturnType) 

364 { 

365 case StoreType::T BOOLEAN:RsltConst.m ConstType=ConstType::BOOLEAN ;break; 

366 case StoreType::T CHAR: 

367 case StoreType::T_STRING:RsltConst.m ConstType=ConstType::STRING:;break; 

368 case StoreType::T_ REAL.: 

369 case StoreType::T_SINGLE:RsltConst.m ConstType=ConstType::REAL;break; 

370 default:RsltConst.m ConstType=ConstType::INTEGER;RsltConst.m iVal=RsltConst.m fVal;break; 

sml } 

372 Rslt.m iLink=SymbolTbl.RecConstTbl(RsltConst); // 申 请 临时 常量 信息 

373 return true; 

374 } 

由 于 类 型 的 存在 ， 常 量 折 锥 的 问题 就 有 许多 复杂 变化 。 笔 者 将 常量 折 靶 的 核心 语义 动作 

从 OpConstSemantic 函数 中 抽象 出 来 了 ， 即 建立 了 OpConstFold 函数 。 其 目的 就 是 为 了 使 
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OpConstFold 函数 可 以 被 优化 阶段 相关 算法 复 用 。 


是 逻辑 却 比 较 简 单 。 读 者 阅读 相关 源 代 码 时 ， 只 需 把 握 以 下 两 个 要 点 即 可 : 


日 


表达 式 语义 | 第 6 章 


虽然 OpConstFold 函数 规模 比较 庞大 ， 但 


(1) 分 支 情景 。 了 解 分 支 设置 的 意义 及 其 所 处 理 的 代码 情景 是 理解 源码 的 前 提 ， 笔 者 已 
作 了 详细 的 注释 说 明 。 


各 旦 . 


(2) 


吊 重 


且 


1) 整 型 常量 的 值 可 以 从 m_fval 和 m_iVal 


的 形式 。 读 者 应 该 了 解 各 种 类 型 的 常量 
ConstInfo 对 象 各 属性 的 取 值 情况 ， 如 表 6-5 所 示 ， 同 时 ， 还 需 注意 以 下 两 点 : 


让 常量 信息 表 中 的 表示 形式 ， 即 


属性 获取 ， 这 样 可 以 使 OpConstFold 函数 节 


省 许多 判断 。 
2) Pascal 语言 中 唯一 的 指针 常量 就 是 nil。 
表 6-5 常量 的 值 域 属性 
类 型 相关 属性 类 型 相关 属性 类 型 相关 属性 
整 型 m iVal、m fVal 实 型 m fVal set m_szSet 
boolean Im_bVal enum m szName string m_szVal 
char m szVal pointer m szVal 
最 后 看 看 单 目 运算 表达 式 的 语义 子 程序 semantic052 的 实现 细节 。 
程序 6-9 Semantic.cpp 
相关 文法 : 
表达 式 1 一 ”关系 运算 符 050 项 051 表达 式 1 | 
项 1 一 ” 低 优先 级 运算 符 050 因 式 051 项 1 | : 
因 式 1 一 ”高 优先 级 运算 符 050 因子 051 因 式 1 | * 
1 bool semantic052() 
2 加 | 
3 OpInfo Tmp1l; 
4 int TmpResult; 
S int TmpOperation; 
6 if (!Operand.empty()) 
有 Tmp1=Operand.top() 
8 else 
9 { 
10 EmitError(" 缺 少 操作 数 ",TokenL ist.at(iListPos-1)); 
11 return false; 
12 } 
13 Operand.pop(); 
14 if (!Operation.empty()) 
15 TmpOperation=Operation.top(); 
16 else 
ly { 
18 EmitError(" 缺 少 操作 数 ",TokenList,at(iListPos-1)); 
19 return false; 
20 } 
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24 { 


26 { 


30 else 


33 TmpR. 


38 } 
39 return true; 


44 return false 
45 } 
46 return true; 


目 运 


Operation.pop(); 
TmpResult=CType::TypeCompatible(Tmp1,TmpOperation); 
if (TmpResult!=-1) 


if (Tmpl.m iType==OpInfo::CONST) 


returm OpConstSemantic(Tmpl,SymbolTbl.TypeSysTbl.at(TmpResult). 


m iProcessId,SymbolTbl.TypeSysTbl.at(TmpResult).m iRsltType); 


OpInfo TmpRslt; 


slt.m iType=OpInfo::VAR.; 


TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(), 


(StoreType)SymbolTbl.TypeSysTbl.at(TmpResult).m iRsltType); 


E 


semantic052 的 主要 了 


等 于 i” 的 常识 性 错误 。 


分 。 


至 此 ， 笔 者 已 经 详细 介 乡 


表达 式 处 理 的 程序 并 


EmitError(" 操 作 数 类 型 不 兼容 ",TokenL ist.at(iListPos-1)); 


了 表达 式 处 理 的 相关 实现 ， 包 括 表达 式 翻 
不 庞大 ， 结 构 也 比较 简单 ， 应 该 不 难 型 


[ 作 就 是 完成 单 目 运算 表达 式 的 翻译 与 处 到 
但 的 实现 与 semantic051 是 非常 类 似 的 ， 所 以 不 有 


算 符 “+”( 正 号 ) 的 小 问题 。 


OpVarSemantic(Tmp1,TmpRslt,SymbolTbl.TypeSysTbl.at(TmpResult)); 
Operand.push(TmpRslt); 


EE。 由 于 semantic052 源 代 


消 


了 详细 分 析 。 这 里 ， 笔 者 只 想 
“+” 是 一 个 比较 特殊 的 运算 符 ， 无 论 是 表达 式 翻 译 ， 还 
常量 折合 ， 编 译 嚣 都 不 需要 为 此 作 任 何 处 理 或 生成 任何 及。 当然， 


谈 一 个 关于 


更 不 可 以 产生 类 似 “+ 


三 
外 


= 


对 及 常量 折 舍 两 个 部 
E 解 。 由 于 Neo Pascal 的 表达 


式 处 理 完全 是 基于 庞大 的 类 型 系统 表 实 现 的 ， 所 以 读者 应 该 紧密 结合 类 型 系统 表 阅 读 相 关 源 


代码 ， 否 则 ， 一 切 都 是 没有 意义 的 。 类 型 系统 的 设计 
易于 实现 、 便 于 理解 的 方 


处 到 


惊人 的 工程 ， 这 是 Neo Pascal 甚至 C 语言 都 无 法 比拟 的 。 在 这 


些 更 为 高 效 的 算法 。 
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[方案 也 并 不 唯一 ， 类 型 系 


统 表 只 是 


式 。 而 这 种 方式 的 缺点 就 是 二 维 表 的 结构 需要 耗费 一 定 存储 空间 


效率 不 高 。 对 于 一 些 类 型 系统 复杂 的 语言 来 说 ， 构 建 类 型 系统 表 可 能 是 一 


项 极其 庞大 


一 种 


? 


与 


情况 下 ， 就 应 该 考虑 采用 一 


表达 式 语义 | 第 6 浊 


| 6.5 ”操作 数 翻译 


6.5.1 操作 数 的 地 址 与 形态 


本 节 将 介绍 语义 处 理 的 最 后 一 个 话题 一 一 操作 数 翻译 。 前 面 花费 了 较 大 的 精力 讲述 表达 
式 的 翻译 ， 以 便 读者 了 解 如 何 将 一 个 表达 式 翻 译 成 相应 的 IR 序列 。 不 过 ， 在 此 期 间 却 略 过 
了 一 个 问题 ， 就 是 文法 中 非 终结 符 “ 变 量 ” 的 相关 语义 子 程序 。 换 名 话说， 讲述 表达 式 翻译 
时 ， 讨 论 的 前 提 就 是 表达 式 的 操作 数 都 是 以 OpInfo 对 象 的 形式 存在 于 Operand 栈 内 的 。 其 
中 ， 笔 者 只 分 析 了 semantic049 是 如 何 生 成 常量 操作 数 的 OpInfo 对 象 的 ， 但 并 没有 解释 编译 
器 是 如 何 为 其 他 操作 数 构 造 OpInfo 对 象 的 。 然 而 ， 本 节 的 重点 就 是 研究 编译 器 如 何 从 输入 
源 程序 中 捕捉 相关 信息 ， 并 为 各 种 可 能 的 情况 构造 OpInfo 对 象 。 这 是 一 个 非常 复杂 的 过 
程 ， 也 是 表达 式 翻译 的 精髓 所 在 。 
与 常量 操作 数 不 同 ， 当 变量 参与 表达 式 运 算 时 ， 由 于 操作 数 的 值 是 在 程序 运行 过 程 中 确 
定 的 ， 因 此 ， 在 绝 大 多 数 情况 下 ， 编 译 阶段 是 无 法 得 到 的 。 不 过 ， 这 并 不 意味 着 编译 器 完全 
无 能 为 力 了 。 虽 然 变量 的 值 不 能 在 编译 阶段 确定 ， 但 是 变量 的 地 址 在 某 种 意义 上 却 是 可 以 硼 
定 的 。 注 意 ， 笔 者 只 是 将 其 界定 为 “在 某 种 意义 上 ”。 在 很 多 情况 下 ， 变 量 地 址 的 管理 和 组 
织 是 由 编译 器 与 操作 系统 及 目标 机 共同 完成 的 。 因 此 ， 编 译 阶段 所 能 确定 的 地 址 只 是 变量 的 
逻辑 地 址 ， 并 不 是 实际 的 物理 地 址 。 
在 目标 程序 运行 过 程 中 ， 任 何 一 个 变量 都 需要 占用 一 定 的 存储 空间 ， 即 使 是 编译 器 自动 
分 配 的 临时 变量 也 不 例外 。 由 此 ， 编 译 器 必定 会 为 每 个 变量 分 配 一 片 逻 辑 地 址 空间 ， 这 片 空 
间 的 容量 是 根据 变量 的 实际 类 型 而 定 的 。 这 里 ， 读 者 并 不 需要 关注 这 些 逻 辑 空间 块 的 组 织 形 
式 ， 可 以 将 它们 理解 为 是 完全 离散 的 ， 彼 此 并 不 存在 任何 联系 。 然 而 ， 对 于 操作 数 翻译 而 
， 这 些 逻 辑 空间 块 的 首 地 址 显然 是 非常 重要 的 ， 它 是 在 运行 时 获取 变量 值 的 唯一 途径 。 不 
语义 处 理 阶段 ， 遗 憾 的 是 编译 器 可 能 无 法 得 到 这 些 钦 辑 空 间 块 的 首 地 址 。 那 么 ， 编 译 
器 又 如 何 生 成 相关 的 寻 址 IR 呢 ? 最 有 效 的 解决 方法 就 是 为 每 个 逻辑 地 址 空间 定义 一 个 名 
字 ， 将 其 与 相应 逻辑 空间 块 的 首 地 址 关联 。 在 语义 处 理 阶 段 ， 一 切 对 变量 逻辑 空间 块 首 地 址 
的 访问 都 转换 成 对 其 名 字 的 寻 址 即 可 。 例 如 ，(ADD，a，1，b) 的 含义 是 将 a 逻辑 空间 块 中 存 
储 的 值 加 1， 并 保存 到 b 逻辑 空间 块 中 。 当 然 ， 在 后 续 阶 段 ， 编 译 器 最 终 会 将 a、b 蔡 换 为 相 
应 逻辑 空间 块 的 首 地 址 。 
不 过 ， 仅 有 逻辑 空间 块 的 首 地 址 还 不 足以 应 对 任意 形式 的 操作 数 。 编 译 器 还 必须 计算 所 
需 访 问 的 空间 在 逻辑 空间 块 内 的 偏 移 量 。 对 于 简单 变量 操作 数 来 说 ， 该 偏 移 量 当然 就 是 0。 
然而 ， 当 操作 数 是 数组 元 素 、 结 构 字 段 等 形式 时 ， 该 偏 移 量 就 不 一 定 是 0， 例 如 ，a.b、 
a[10]、a 叫 等 。 编 译 器 通常 将 整个 数组 或 结构 作为 一 个 逻辑 空间 块 ， 而 其 中 的 元 素 只 能 表示 
为 相对 于 逻辑 空间 块 首 地 址 的 偏 移 量 的 形式 。 同 样 ， 块 内 偏 移 量 也 可 以 分 为 两 种 情况 : 常量 
偏 移 、 变 量 偏 移 。 常 量 偏 移 就 是 指 该 偏 移 量 可 以 在 编译 阶段 计算 得 到 的 ， 例 如 ，a.b、a[10] 
等 。 而 变量 偏 移 就 是 指 该 偏 移 量 只 能 在 运行 阶段 确定 的 ， 例 如 ，a[i、af[a[j]] 等 。 
了 解 了 操作 数 地 址 的 概念 后 ， 就 来 看 看 其 形态 设计 。 实 际 上 ， 操 作 数 的 形态 就 是 指 IR 
中 关于 操作 数 的 描述 形式 。 换 句 话说 ， 就 是 讨论 如 何 运用 IR 序列 表示 操作 数 。 在 编译 技术 
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中 ， 关 于 操作 数 的 形态 并 没有 统一 的 观点 ， 与 IR 设计 类 似 ， 设 计 操 作 数 的 形态 也 是 一 项 基 
于 经 验 的 工程 。 当 然 ， 其 形态 的 抽象 层次 对 于 IR 的 级 别 也 有 较 大 影响 。 

鉴于 Neo Pascal 采用 了 中 、 低 级 别 的 了 及， 在 设计 其 操作 数 形态 时 ， 笔 者 主要 考虑 如 下 
两 个 方面 : 

(1) 简单 地 址 形式 。 前 面 提 到 了 操作 数 偏 移 量 的 问题 ， 无 论 是 常量 偏 移 ， 还 是 变量 偏 
移 ， 它 们 都 是 基于 首 地 址 而 言 的。 然而 ， 在 通用 机 编译 器 中 ， 导 辑 空间 块 的 首 地 址 是 不 可 能 
在 编译 阶段 确定 的 。 在 设计 IR 时 ， 为 了 便于 后 续 处 理 ， 笔 者 尽 可 能 细 化 寻 址 过 程 的 每 个 步 
又 ， 将 其 转换 为 相应 的 下 输出 ， 见 表 6-6。 


NAN 


表 6-6 简单 地 址 形式 


Pascal 声明 获取 ab 字段 值 的 下 序列 
(ASSIGN 4， 1, NULL, _T1) // 计 算 常量 偏 移 
ERECORD (GETADDR, a, NULL, _T2) /获取 a 的 首 地 址 
a,b:char; (ADD 4, Tl, T， _T3) /计算 ab 的 地 址 
END; (ASSIGN 4, @ T3, NULL, _T4) // 获 取 ab 的 值 


不 难 发 现 ， 表 6-6 中 操作 数 的 形式 都 比较 简单 ， 关 于 操作 数 寻 址 的 描述 是 以 IR 指令 形 


式 给 出 ， 而 没有 将 操作 数 的 抽象 滞留 在 较 高 的 层次 上 。 这 种 方案 的 主要 特点 就 是 及 中 的 每 
个 OpInfo 对 象 的 形态 都 是 简单 地 址 形式 ， 不 存在 任何 偏 移 信 息 。 较 低级 的 操作 数 地 址 的 形 
态 是 非常 有 利于 优化 及 代码 生成 的 。 虽 然 这 个 方案 可 能 会 产生 较 多 的 临时 变量 ， 但 是 这 个 结 
果 却 是 可 以 接受 的 。 因 为 编译 器 可 以 通过 存储 分 配 及 代码 优化 等 算法 来 减少 临时 变量 的 使 
用 。 例 如 ， 可 以 通过 数据 流 的 分 析 获得 各 个 临时 变量 的 使 用 周期 〈 即 定 值 点 到 引用 点 的 范 
围 )， 将 使 用 周期 互 不 重 全 的 临时 变量 分 配 在 一 个 逻辑 地 址 空间 中 ， 以 节省 临时 变量 的 空间 
开销 。 在 后 续 章节 中 将 详细 介绍 相关 设计 思想 及 算法 实现 。 

(2) 无 类 型 支持 。 在 讨论 IR 的 抽象 级 别 时 ， 曾 经 谈 过 这 个 话题 。 实 际 上 ， 关 于 IR 是 
否 提 供 类 型 信息 ， 完 全 是 由 IR 的 抽象 级 别 决定 的 ， 并 不 能 一 概 而 论 。 针 对 不 同 的 代码 优 
化 与 生成 算法 ， 编 译 器 设计 者 可 能 需要 设计 几 种 形式 、 级 别 不 同 的 代 。 实 践 证 明 ， 完 备 的 
类 型 信息 反而 会 加 大 某 些 类 型 无 关 的 优化 算法 的 复杂 程度 。 因 此 ， 在 通常 情况 下 ， 编 译 器 
设计 者 都 会 构造 一 种 无 类 型 的 IR 形式 供 后 端 使 用 。 不 过 ， 这 并 不 意味 着 无 类 型 的 IR 必须 
在 语义 处 理 阶 段 生 成 。 如 果 有 特殊 需 要 ， 在 语义 处 理 阶 段 ， 编 译 器 完全 可 以 生成 有 类 型 的 
较 高 级 的 及。 随后 ， 在 特定 的 时 刻 ， 将 其 转换 为 其 他 形式 的 IR 与 无 类 型 的 了 及 ， 这 项 工程 
应 该 并 不 复杂 。 

必须 指出 ， 任 何 I 人 R 形式 的 评价 都 是 基于 具体 应 用 环境 〈 如 代码 优化 与 生成 等 ) 的 ， 脱 
离 了 应 用 环境 讨论 IR 的 优 劣 是 没有 意义 的 。 


6.5.2 ”操作 数 翻译 基础 


与 表达 式 翻译 类 似 ， 操 作 数 翻译 同样 是 基于 语法 机 制 实现 的 。 因 此 ， 操 作 数 的 形式 将 是 
设计 语义 子 程序 的 重要 依据 。 在 本 小 节 中 ， 略 过 类 型 不 谈 ， 而 从 操作 数 的 形式 入 手 讨 论 一 般 
化 的 操作 数 翻译 。 操 作 数 相关 的 文法 形式 如 下 : 


NS 


二 
过 
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【文法 6-2】 

因子 一 变量 053 

变量 一 ”标识 符 054 变量 1 

变量 1 一 [098 表达 式 列表 099 ] 059 变量 1 
一 . 标识 符 056 变量 1 
一 ^058 变量 1 
一 ”过 程 调用 语句 

过 程 调用 语句 一 (101 实 参 列表 ) 066 
一 &€ 005 


从 文法 来 说 ， 可 以 将 操作 数 分 为 五 种 基本 形式 ; 
(1) 简单 变量 操作 数 : 操作 数 中 没有 任何 界 符 ， 也 就 是 直接 使 用 变量 名 来 表示 一 个 操作 


数 ， 例 如 a、b 等 。 注 意 ， 这 里 所 说 的 “简单 变量 操作 数 ” 并 不 一 定 是 简单 类 型 的 变量 。 在 


进行 操作 数 翻译 时 


， 可 能 更 多 关注 的 是 操作 数 的 形式 ， 而 不 是 操作 数 的 类 型 。 这 是 因为 语法 


推导 的 过 程 及 语义 子 程序 调用 的 顺序 并 不 是 由 操作 数 的 类 型 决定 的 ， 而 是 取决 于 操作 数 的 形 
式 。 当 然 ， 这 并 不 意味 着 操作 数 的 类 型 没有 意义 。 操 作 数 的 类 型 是 语义 子 程序 内 部 逻辑 所 关 


注 的 元 素 。 简 单 变 量 操作 数 的 语义 处 理 比 较 容易 ， 只 需 将 OpInfo 对 象 的 m_iLink 属性 指向 


变量 信息 表 中 相应 的 表 项 ， 并 正确 设置 其 他 相关 属性 即 可 。 
(2) 记录 字段 操作 数 : 操作 数 中 包含 界 符 “.” 也 就 是 使 用 记录 类 型 变量 的 某 一 个 字段 
作为 一 个 操作 数 ， 例 如 ，house.address、house.tel 等 。 众 所 周知 ， 记 录 字 上 段 相 对 于 首 地 址 的 


偏 移 是 和 常量。 当然 


， 偏 移 的 值 可 能 会 因为 记录 的 存储 布局 而 变化 ， 甚 至 出 现 一 些 令 人 费解 的 


情形 。 不 过 ， 有 


点 应 该 是 无 可 争议 的 ， 那 就 是 偏 移 的 值 必定 是 一 个 常量 。 当 然 ， 在 处 理 记 


录 字 有 段 操 作 数 时 ， 不 能 忽略 多 级 字段 操作 数 的 形式 ， 例 如 ，house.address.road。 根 据 实际 语 


义 ， 多 级 字段 操作 数 的 地 址 相对 于 记录 类 型 变量 首 地 址 的 偏 量 同样 是 一 个 常量 。 


(3) 数组 元 素 操作 数 : 操作 数 中 包含 界 符 “[ ]”， 也 就 是 使 用 数组 类 型 变量 的 茶 一 个 元 
素 作 为 一 个 操作 数 ， 例 如 ，source[il、class[2] 等 。 传 统 的 数组 都 是 顺序 存储 的 ， 所 以 数组 元 
素 的 地 址 通常 可 以 被 描述 成 相对 于 首 地 址 的 偏 移 。 不 过 ， 与 记录 字段 不 同 ， 这 个 偏 移 量 可 能 


日 


ww, Ea 后 
是 常量 ， 也 可 能 是 


复杂 ， 


(4) 指针 目标 
果 作 数 ， 例 如 ，aa^，aa.bb 人 ^ 等 。 指 针 目 标 操 作 数 本 身 并 不 需要 处 理 偏 移 量 。 它 的 语义 处 理 比 


变量 ， 这 是 取决 于 数组 元 素 的 下 标 形式 。 数 组 元 素 操作 数 的 语义 处 理 比较 
于 可 能 存在 变量 偏 移 的 情况 ， 所 以 编译 器 就 需要 生成 IR 来 计算 相应 的 偏 移 。 


操作 数 : 操作 数 中 包含 界 符 “^” 也 就 是 将 指针 指向 的 目标 元 素 作为 一 个 


较 简单 ， 实 际 上 ， 就 是 一 次 间接 寻 址 的 过 程 ， 只 需 正确 设置 m_bRef 属 | 
理 指针 时 ， 一 定 不 能 忽略 左 值 的 问题 。 在 任何 支持 指针 的 语言 中 ， 指 针 运 算 的 对 象 通常 只 能 
是 左 值 变量 。 因 此 ， 左 值 判 断 是 非常 必要 的 。 

值 操作 数 : 在 Pascal、C 等 语言 中 ， 函 数 返回 值 也 可 以 直接 作为 表达 式 的 


府 


即 可 。 不 过 ， 在 处 


St 
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注意 的 是 : 标准 Pascal 规定 ， 程 序 员 调用 过 程 或 函数 时 ,“0” 只 能 在 参数 列表 
空 的 情况 下 运用 。 也 就 是 说 ， 调 用 无 参 过 程 或 函数 时 ， 只 需 引 用 过 程 或 函数 名 即 可 。 不 


过 ， 随 着 “@” 运 


type 


符 的 引入 ， 就 不 得 不 解决 一 个 二 义 性 的 问题 。 例 如 : 


=function :integer; 
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var 
b:^integer; cf 

function a:integer; 

begin 

end; 

begin 
b:=@a; ，。 // 取 函数 a 的 返回 值 的 地 址 
c:=@a; // 取 函数 a 的 地 址 

end. 


这 是 一 个 合法 的 Pascal 程序 。 
完全 不 同 的 。 对 于 语义 分 析 来 说 ， 这 种 情况 是 非常 不 利 的。 显然 ， 表 达 式 “@a” 本 身 的 
它 依赖 于 赋值 号 左边 对 象 的 类 型 。 
译 器 设计 带 来 不 小 的 麻烦 。 实 践 证 明 ， 这 种 得 不 偿 失 的 做 法 并 没有 得 到 大 多 数 语 言 设 i 
认可 。 在 设计 C 语言 时 ，Ritchie 很 好 地 解决 了 这 一 问题 。 
19“O” 即使 无 参 函 数 也 是 如 此 。 这 样 ， 就 避免 了 类 似 的 二 义 性 问题 。3 
现 ， 提 出 了 类 似 的 修改 方案 ， 
有 译 器 的 实现 ，Neo Pascal 同样 采 月 
说 明了 五 种 操作 数 形 式 ， 这 是 讨论 操作 数 语 义 处 理 及 翻译 的 基础 。 关 于 操作 
没有 非常 明确 的 定论 ， 所 以 笔者 给 


日 
候 


语 


义 并 不 唯一 ， 


须 力 


Pascal 就 参考 了 C 语言 的 实 
“0” 为 了 避免 二 义 性 ， 便 于 乡 


以 上 简 刁 


数 的 概念 、 分 类 者 
再 次 强调 ， 在 进行 操作 数 语 义 处 理 


外 ， 


FE 程 


序 中 两 个 赋值 语句 的 右 部 都 为 @a， 但 它们 的 语义 却 


时 ， 


数 的 语义 动作 与 


的 一 般 化 过 程 。 


Operand 栈 向 后 者 传递 信息 ， 而 后 者 则 根 志 
污 成 OpInfo 对 象 的 过 程 。 
之 前 ， 有 一 个 概念 需要 明确 : 即使 语法 分 析 器 选用 
续 推 导 ， 也 并 不 意味 着 当前 标识 符 必 定 是 变量 名 或 者 函数 名 。 事 实 上， 很 多 语 


注 的 是 4 


在 讨论 翻译 过 程 


产生 式 进行 后 


大 品 


sz， 有 


言 都 提供 了 一 种 


符号 常量 


机 制 ， 侦 


i 


量 的 形式 与 简单 变 直 
名 ， 那么 “[]” 或 4 运算 对 于 


狼 豆 请 量 


付 气 吊 生 


从 语言 实现 的 角度 而 言 ， 


因 


读者 已 经 知道 了 ， 操 作 数 翻译 与 表达 式 翻 译 的 接口 就 是 Operand 栈 。 前 者 借 
表达 式 的 语义 生成 相应 的 人。 然而 ， 这 量 


要 的 ， 


也 ; 


6 


4 给 


十 者 


这 种 机 人 


ds 


为 C 语言 的 函数 调用 语句 必 


开源 编译 器 Free 


规定 调用 过 程 或 函数 时 必须 加 
昌 了 这 个 方案 。 


的 操作 数 分 类 名 仅 适用 于 本 书 。 另 
又 分 操作 数 形式 是 比较 
式 文 法 形式 是 密切 相关 的 。 了 解 了 操作 数 的 形式 后 ， 就 来 讨论 操作 数 翻 


Tl 


因为 翻译 操作 


I 


助 于 
有 主要 关 


¢ 


如 Pascal 中 的 “CONST” 为 首 的 相关 声明 。 


比较 类 似 ， 但 是 它 的 语义 处 理 


大 口上 下 


符号 常量 


却 与 普通 的 常量 无 异 。 女 


都 是 没有 任何 意义 的 。 处 到 


因子 一 变量 ”这 个 


AA DA 


然 符 号 常 
[0 果 当 前 标识 符 是 


符号 常量 操作 


[ssl 
= 


a 


数 的 过 程 比较 简单 ， 编 译 器 只 需 为 其 生成 一 个 OpInfo 对 象 ， 将 相应 的 m_iType 属性 设 为 


OpInfo::Const， 并 压 入 Operand 栈 有 


可 。 


下 面 重 点 讨论 变量 操作 数 的 语义 处 理 过 程 。 


处 理 变量 操作 数 的 关键 就 在 于 如 何 计算 偏 移 量 。 针 对 不 同形 式 的 变量 操作 数 ， 


扁 移 、 变 量 1 
说 ， 编 译 器 只 能 i 


从 用 


不 过 ， 常 量 


译 
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局 移 是 
前 过 生成 相应 的 目标 代码 来 实现 偏 移 量 的 计 
目标 代码 ， 则 完全 是 代码 优化 问题 。 
况 就 有 些 不 同 了 。 在 语义 分 析 过 程 9 
高 效 的 IR 就 是 


极 


日 


重要 的 。 由 


局 移 的 性 


器 完成 的 。 当 然 ， 生 成 精简 


i 译 器 设计 者 关注 的 。 这 上 


Ph， 常 量 偏 移 的 计算 完全 是 | 


区 别 常量 


于 变量 偏 移 依 赖 运行 时 刻 的 状态 ， 所 以 ， 对 于 变量 偏 移 来 
算 。 至 于 如 何 生成 更 优 的 IR 或 


编 
， 笔 者 先 给 出 一 


人 


简单 的 例子 : 
VAR 
house:RECORD 
name: Achar; 
address:RECORD 
No: 
road: 
END; 
END; 


常 容易 地 得 到 这 个 常量 偏 移 的 值 即 为 8。 当 运用 相关 文法 推 
不 难 发 现 semantic056 将 被 两 次 调用 ， 分 别 
不 考虑 效率 ， 编 译 器 可 


读者 认为 编译 器 可 以 借 
个 问题 ， 但 并 不 推荐 这 种 实现 。 到 
情况 ， 不 可 能 以 不 变 应 万 变 ， 
设计 一 个 能 在 任意 代码 情景 9 
行 性 较 差 。 然 而 ， 在 操作 数 翻 
用 例子 中 ， 生 成 元 余 的 IR 的 主要 原因 
解决 这 个 问题 的 关键 就 是 如 何在 语义 分 析 过 程 中 完成 常量 
了 分: 偏 移 计 算 部 分 、 操 作 数 寻 址 
遍 移 的 IR 序列 。 而 操作 数 寻 址 部 


成 IR 输出 。 
于 讲解 ， 笔 者 暂且 将 翻译 操作 数 得 到 的 下 
i 移 计算 部 分 就 是 专门 用 


部 分 。 


台 已 4 旧 


(GETADDR, 
(ADD, 
(ADD, 


NULL 
4, 
4, 


house, 
_Tl, 
_12, 


， _T1) 
_T2) 
_T3) 


integer; 


char; 


表达 式 语义 | 第 6 浊 


//4 字 节 ， 偏 移 为 0 


// 偏 移 为 4 


/4 字 节 ， 偏 移 为 4 
/4 字 节 ， 偏 移 为 8 


民 据 先前 讨论 的 结论 可 知 ，house.addressroad 的 偏 移 必定 是 


一 个 常量 偏 移 。 


应 对 任意 代码 情景 。 


P 将 后 两 句 下 合并 的 算法 可 


在 


前 


译 过 各 


早 品 


虽 ， 


// 获 得 house 的 
// 分 析 address 字段 ， 生 成 计算 address 偏 移 的 下 
/分 析 road 字段 ， 生 成 计算 road 1 


从 语义 上 来 说 ， 这 样 的 及 序列 是 完全 正确 的 ， 确 实 也 足以 精确 
过 ， 这 个 结果 却 是 不 可 接受 的 。 实 际 上 ， 在 本 例 中 ， 生 成 计 
有 意义 。 本 例 只 需 直接 计算 得 到 road 字段 的 偏 移 量 8， 并 生成 相 
助 优化 算法 将 后 两 句 IR 合并 。 


4 
FI 


然 笔 者 


地 址 


描述 整个 
address 字段 1 


由 非常 简单 ， 任 何 优化 算法 都 只 能 处 至 


由 于 编 


人 bE 
能 需要 


当然 ， 也 可 以 非 


导 “house.addressrfoad” 时 ， 就 
于 处 理 address 与 road 字段 。 换 句 话说， 如 果 
能 得 到 如 下 的 有 下 序列 : 


遍 移 的 人 民 


寻 址 的 过 程 。 不 
高 移 的 耻 完全 没 


应 的 及 即 可 。 当 然 ， 有 些 
承认 优化 算法 可 以 解决 这 


要 实现 这 个 目标 就 比较 容易 了 。 


序列 


顾名思义 ， 亿 


分 就 是 指 那些 用 于 获取 首 地 址 及 计算 操作 数 罗 辑 地 址 的 


令 、 


条 下 指令 了 。 因 此 ， 


口 


尽 可 能 将 常量 人 


让 ， 


芷 数 寻 址 部 分 ”的 
多 相 加 的 IR 指令 。 


所 谓 的 “ 操 
首 地 址 与 偏 


然而 ,“ 偏 移 计 


翻 


IR 


当然 ， 如 果 1 
试图 优化 操作 数 寻 五 
部 分 ”的 IR 序列 的 情况 就 比较 复杂 了 ， 同 时 ， 它 也 为 代码 的 优化 创造 
FP 的 元 余 结果 。 实 际 上 ， 编 译 器 
遍 移 的 折 著 。 
址 IR 的 动作 置 于 semantic053 


就 是 没有 完成 常 上 


某 种 或 某 几 种 


飞人 码 


圣 器 自动 生成 民 的 随意 性 较 大 ， 
付出 较 大 的 代价 ， 所 以 其 可 


分 成 两 个 这 
于 计算 操作 数 


IR 


序列 。 


序列 主要 指 的 就 是 两 条 指令 ， 


上 部 分 的 脐 可 


得 


ij 移 为 常量 


台电 


用 


> 


了 条 件 。 如 果 完 全 按照 语义 生成 民 ， 就 可 能 得 到 类 似 于 
在 生成 “ 偏 移 计 算 部 分 ”时 ， 需 要 入 
译 操作 数 的 基本 思想 大 致 如 下 : 可 以 将 4 
即 在 分 析 完 整个 操作 数 之 后 ， 再 生成 操作 数 寻 址 了 及。 因 
和 暂 存 结构 ， 跟 踪 偏 移 量 的 变化 情 


i 移 在 暂 存 结构 中 合 3 


SE 


笃 决 的 核心 问题 就 是 常量 1 
成 操作 数 寻 
此 ,多 
况 ， 并 予以 记录 。 在 此 过 程 中 ， 


EY 


直到 出 现 变 量 偏 移 为 止 


网 


。 当 然 ， 自 


E 偏 移 的 折 生 ， 而 是 
| 移 的 折合 。 


i 译 器 就 不 得 不 借 
遵循 常量 偏 移 折 炙 的 原则 ， 


直接 生 
为 了 便 


获取 首 地 址 的 代 指 
0 时 ， 编 译 器 就 不 需要 生成 第 二 
:徒劳 的 。 


企 


助 于 


出 现 变 量 偏 移 之 
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B ER i 
四 、。 编译 器 设计 之 路 
ee 


后 ， 就 不 必 再 考虑 后 续 更 复杂 的 常量 偏 移 折 县 的 情况 。 例 如 ，b[i].a.p[3]， 实 际 上 ,“.a.p[3]” 
相对 于 “b 上 ”也 是 一 个 常量 偏 移 。 不 过 ， 由 于 站 是 一 个 变量 ， 所 以 b[i] 相 对 于 b 就 是 一 个 变 


量 侦 移 。 
考虑 了 。 


基于 b 四 继续 讨论 常量 偏 移 折 蕾 可 能 复杂 一 些 ， 故 后 续 出 现 的 常量 偏 移 折 登 就 不 予 
基体 的 源码 实现 ， 请 读者 参考 后 续 章 节 。 


最 后 ， 笔 者 给 出 一 个 重要 的 数据 结构 ， 就 是 先前 提 及 的 “ 暂 存 结构 ”。 暂 存 结构 的 设计 


是 比较 习 


要 的 ， 必 须 既 能 满足 操作 数 翻译 的 实际 需要 ， 结 构 也 不 能 过 于 复杂 。 在 Neo Pascal 


中 ， 该 暂 存 结构 的 声明 形式 如 下 : 


【声明 6-7】 


struct Var 
{ 
stack<VarType> m_ VarTypeStack; 
int m 1VarLink; 
OffsetType m_eOffsetType; 
int m iOffsetLink; 
int m_ iDim; 
bool m bRef; 
Var0; 
上 


stack<Var> CurrentVar; 


m_ VarTypeStack: 操作 数 类 型 栈 ， 主 要 用 于 跟踪 操作 数 分 析 过 程 中 类 型 信息 的 变化 情 


况 。 这 是 一 个 非常 重要 的 字段 ， 因 为 操作 数 类 型 分 析 的 结果 将 直接 影响 编译 的 正确 4 


生 。 


Pr 


m iVarLink: 所 属 变量 信息 。 由 于 Var 结构 只 处 理 变 量 操作 数 ， 所 以 有 必要 将 所 属 变量 


的 指针 暂 存 。 实 际 上 ， 这 个 字段 对 于 编译 器 获取 变量 首 地 址 信息 是 非常 有 用 的 。 


m_eOffsetType: 操作 数 的 偏 移 类 型 ， 这 是 一 个 枚 举 类 型 的 字段 。 该 枚 举 类 型 的 允许 取 值 
分 别 为 ConstOffset (常量 偏 移 )、VarOffset (变量 偏 移 )、NoneOffset (无 偏 移 )。 
m iOffsetLink: 操作 数 的 偏 移 指针 。 根 据 m_eOffsetType 的 取 值 ， 该 字段 的 含义 是 不 同 


的 。 当 m_eOffsetType 的 值 为 ConstOffset 时 ，m _iOffsetLink 中 存储 的 是 常量 在 常量 信息 表 中 


的 位 序 。 


中 的 位 序 。 当 m_eOfffsetType 的 值 为 NoneOffset 时 ，m_iOffsetType 是 没有 意义 的 。 


当 m_eOffsetType 的 值 为 VarOffset 时 ，m_iOffsetLink 中 存储 的 是 变量 在 变量 信息 表 


m_iDim: 数组 维度 信息 。 在 分 析 当 前 操作 数 时 ， 该 字段 主要 用 于 记录 当前 正在 分 析 数 
组 的 维度 信息 ， 详 细 实 现 将 在 后 续 章节 中 讨论 。 


m_bRef: 引用 寻 址 标志 。 
当然 ， 在 语义 分 析 过 程 中 ， 还 需要 考虑 操作 数 嵌 入 引用 的 情况 ， 例 如 ，a[b.c]p 等 。 因 
此 ， 暂 存 结构 实际 上 是 一 个 栈 式 结构 ， 用 于 跟踪 整个 操作 数 的 分 析 过 程 。 


6.5.3 


简单 变量 操作 数 的 翻译 


前 面 已 经 对 “简单 变量 ”的 概念 作 了 相关 的 说 明 。 本 小 节 将 关注 简单 变量 的 语义 处 理 动 
作 的 设计 及 其 实现 。 那 么 ， 直 接 引 用 一 个 标识 符 来 表示 的 操作 数 必定 是 简单 变量 操作 数 吗 ? 


答案 是 否定 的 ， 事 实 上 ，with 结构 和 过 程 调用 语句 是 不 可 忽略 的 。 下 面 对 这 两 个 话题 作 简单 


讨论 。 
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with 结构 是 


导致 程序 的 结构 比较 零乱 。 因 


种 比较 特殊 的 语法 机 
引用 。 因 此 ， 在 处 理 简 单 变量 操作 数 时 ， 
然 ， 从 某 种 角度 而 言 ，with 结构 可 能 降 


表达 式 语义 


第 6 党 


央 ， 其 设置 的 目 


的 就 是 为 了 便 了 


程序 员 


需要 区 分 通过 with 结构 引 月 


先 简单 介 
图 6-8 所 示 ， 这 是 
序 中 有 3 条 


] 


名 时 ， 字 段 名 将 被 人 4 


z 先 引 


他 对 象 重 


部 变量 重 名 时 的 处 理 原则 是 一 致 的 。 另 外 ， 当 


with 结构 花 套 时 ， 在 内 、 夕 


层 字段 名 重 名 的 情 


况 


下 ， 内 层 字段 将 屏蔽 外 层 字段 。 设 计 者 需要 关注 
with 结构 的 两 个 基本 特性 ， 它 们 是 编译 器 设计 的 


Ft 
里 


准则 。 


然 编译 器 设计 者 对 with 结构 


乎 是 不 可 突破 的 底线 。 


特性 的 


理解 可 能 存在 一 定 的 差异 ， 但 这 两 个 基本 原则 似 


除了 with 结构 之 外 ， 还 需要 考虑 函数 调用 语 


名 的 情况 。 判 断 标 识 符 是 不 是 函数 名 应 该 并 不 复 


杂 ， 只 需 遍 历 符号 表 即 可 。 如 
么 ， 编 译 器 就 应 该 生成 相应 的 


日 
果 是 


周 用 


回 值 的 人 迟 。 在 处 理 函 数 调 
得 不 处 理 ， 那 就 是 函数 调用 与 
系 。 从 理论 上 来 说 ， 函 数 调 


况 亦 是 如 


象 ( 包 括 过 程 、 函 数 ) 


论 范畴 了 。 


函数 调用 ， 那 
函数 并 获取 返 


3 时， 还 有 一 个 问题 不 
with 结构 的 优先 关 


氏 程序 的 可 读 性 ， 尤 
此 ， 包 括 C 语言 在 内 的 很 多 程序 设计 
的 。 不 过 ， 作 为 一 个 Pascal 编译 器 ，Neo Pascal 还 是 继承 了 标准 Pascal 的 with 结构 。 
绍 一 下 Pascal 语言 的 with 结构 。 如 
个 关于 with 结构 的 例子 ， 程 
赋值 语句 ， 不 过 ， 它 们 的 赋值 对 象 去 
是 完全 不 同 的 。 这 是 由 with 结构 的 优先 引用 原则 
决定 的 。 在 with 结构 中 ， 当 字段 名 与 
， 这 和 全 局 变量 、 局 


语言 是 
本 百 征 


Var 


不 提 


对 记录 字段 的 


记录 字段 的 情形 。 当 
是 多 层 嵌 套 的 with 结构 可 能 


共 with 结构 


a,b:record c,d: integer ; end; 


c: integer; 


function d(i: integer) : integer; 


begin 
result:=1; 


end; 


begin 


with a do 
begin 
Cc:=1; 
with b do 
begin 
Cc:=2; 
c:=d(1); 
end; 


end; 


/优先 引用 ac 


// 优先 引用 bc 
// 语义 错误 


/优先 引用 


6-8 ”with 结构 的 优先 级 


与 with 结构 之 间 是 
此 。 不 过 ， 遗 憾 的 是 ， 标 准 Pascal 的 语义 却 3 
Delphi 在 内 的 许多 Pascal 编译 器 都 不 支持 。 换 句 话 说 ， 在 with 结构 中 ， 当 字段 名 与 其 他 对 


不 应 该 存在 二 义 性 的 ， 即 使 存在 重 名 的 情 


非 如 此 。 


图 6-8 所 示 


重 名 时 ， 字 段 名 将 被 优先 引用 
了 解 了 with 结构 及 函数 调用 语句 后 ， 也 就 明确 
而 那些 属于 记录 字段 或 者 函数 名 的 标识 


作 数 翻译 涉及 with 结构 处 理 的 相关 数据 结构 


说 明 。WithStack 栈 的 声明 形式 如 下 : 


【声明 6-8】 
struct WithField 
{ 


Var m Var; 


int m_iRestorelR; 


stack<WithField> WithStack; 


// 开 域 记录 信 息 


WithStack 栈 ， 因 


于 


的 程序 ， 包 括 


了 哪些 标识 符 忆 


当然 就 由 其 他 语义 子 程 


符 3 


于 简单 变量 操作 数 的 讨 
序 处 理 。 


由 于 操 


// 宛 余 IR 的 起 始 位 置 


此 ， 笔 者 对 此 结构 作 简单 
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对 于 一 个 with 结构 而 言 ， 最 


重要 的 信息 应 该 就 是 开 域 记录 的 相关 信息 。 从 文法 上 而 


言 ， 标 准 Pascal 的 开 域 记录 可 以 是 由 “变量 ”推导 得 到 的 任何 形式 ， 所 以 其 形式 还 是 比较 复 


如 的 。3 


那么 ， 以 什么 数据 结构 暂 存 开 域 记录 的 相关 信息 (编译 
构 来 暂 存 开 域 记录 的 信息 应 该 是 不 错 


多 


、 


了 用 有 
器 可 以 轻松 获得 开 域 记录 相关 的 类 型 信息 ， 在 semantic054 中 ， 就 将 涉及 这 方 盏 
由 于 标准 Pascal 允许 with 结构 和 藤 套 声 明 ， 所 以 编译 器 必须 借助 


的 选择 。 相 对 于 OpInfo 结构 而 言 ，Var 结构 可 以 提供 


言 息 ) 呢 ? 当然 ， 使 用 Var 结 


更 


的 信息 ， 而 且 便于 被 操作 数 翻译 的 相关 语义 子 程序 共享 访问 。 通 过 m_Var 字段 ， 编 译 
的 应 用 。 


当 


于 WithStack 栈 将 每 一 层 


次 开 域 记录 的 信息 都 予以 保存 。 关 于 with 结构 的 实现 细节 ， 将 在 后 续 章 节 中 讨论 。 下 面 ， 
再 来 看 看 简单 变量 操作 数 的 相关 文法 : 


【文法 6-3】 
因子 一 变量 053 
变量 一 标识 符 054 变量 1 
变量 1 一 ”过 程 调 用 语句 


过 程 调用 语句 一 & 005 
semantic054: 1. 输入 标识 符 的 有 效 性 判断 。 

2. 构造 Var 对 象 ， 并 根据 输入 标识 符 设置 m_iVarLink 字段 。 
3. 将 Var 对 象 压 入 CurrentVar 栈 。 

1. 生成 取 首 地 址 IR。 

2. 生成 寻 址 IJR， 用 于 计算 变量 首 地 址 与 常量 偏 移 的 和 。 

1. 处 理 函 数 调用 的 相关 语义 。 


semantic053: 


semantic005: 


程序 6-10 semantic.cpp 


相关 文法 : 
变量 一 ”标识 符 054 变量 1 

1 bool semantic054() 

2 

3 Var Tmp; 

4 string szTmp=TokenList.at(iListPos-1).m_ szContent; 

5 int j=WithStack.size()-1; 

6 for (j>=0;j--) 

加 { 

8 int i; 

9 for(i=0;i<SymbolTbl.TypeInfoTbl[WithStack.c.at(j).m Var.m VarTypeStack.top() 
10 .m iLinkl].m FieldInfo.size();i++) 
11 { 
也 if (SymbolTbl.TypeInfoTbl[WithStack.c.at(j).m Var.m VarTypeStack.top() 
13 .m iLink].m FieldInfo.at().m_ szName.compare(szT mp)==0) 
14 break; 
15 } 
16 if (il=SymbolTbl.TypeInfoTbl[WithStack.c.at(j).m_ Var.m VarTypeStack.top() 
Um .m iLinkl.m FieldInfo.size()) 
18 break; 
19 } 
20 if (>=0) 
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CurrentVarpush(WithStack.c.at(O).m_Var); 


return semantic056(); 


1 
E 


int i=1=SymbolTbl.SearchProcInfoTbl(szTmp,true); 
1f (1==-1) 


人 
1 


bool bConstProcess; 

i=SymbolTbl.SearchVarInfoTbl(SymbolTbl.ProcStack.top(),szTmp); 

让 (i==-1) 

{ 
i=SymbolTbl.SearchConstInfoTbl(SymbolTbl.ProcStack.top(),szTmp); 
if G==-1) 

{ 

i=SymbolTbl.SearchVarInfoTbl(0,szTmp); 

if G==-1) 

{ 
i=SymbolTbl.SearchConstInfoTbl(0,szTmp); 
if G==-1) 

{ 
if (szTmp.compare("SIZEOF")==0) 
{ 
ProcCall Tmp; 
Tmp.m iProcIld=-1; 
CurrentProcCall.push(Tmp); 
return true; 


I 


EmitError(" 标 识 符 未 声明 或 非法 引 月 
,TokenList.at(iListPos-1)); 
return false; 


-~ 


} 


else 
bConstProcess=true; 
} 
else 
bConstProcess=false; 
} 
else 
bConstProcess=true; 
} 
else 
bConstProcess=false; 
if (bConstProcess) 


第 6 各 
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67 { 

68 OpInfo Tmp; 

69 Tmp.m iType=OpInfo::CONST, 

70 Tmp.m iLink=i; 

71 Operand.push(Tmp); 

也 bConstFlag=true; 

We } 

74 else 

和 鸡 { 

76 PushVarType(SymbolTbl.VarInfoTbl[il.m iTypeLink,Tmp); 
更 Tmp.m iVarLink=i; 

78 Tmp.m_ iDim=0; 

19 Tmp.m_ bRef—=SymbolTbl.VarInfoTbl[i].m_ bRef; 
80 CurrentVar.push(Tmp); 

81 bConstFlag=false; 

82 } 

83 } 

84 else 

85 { 

86 ProcCall Tmp; 

87 OPpInfo TmpRet; 

88 TmpRet.m iType=OpInfo::VAR; 

89 TmpRet.m iLink=SymbolTbl.ProcInfoTbl.at().m iReturnVar; 
90 Tmp.m Return=TmpRet; 

91 Tmp.m iProcld=i; 

2 多 Tmp.m eCallType=ProcCall::Call; 

93 CurrentProcCall.push(Tmp); 

94 } 

95 return true; 

96 } 


第 5 一 19 行 : 遍历 WithStack 栈 ， 判 断 当 前 输入 标识 符 是 否 为 开 域 字段 名 。 根 据 标 准 


Pascal 的 语义 ， 编 译 器 将 由 内 向 外 逐 层 检索 ， 即 从 WithStack 栈 顶 向 栈 底 逐一 检索 各 个 开 域 


记录 的 字段 列表 。 


第 20 一 24 行 : 如 果 当 前 输入 标识 符 是 开 域 字段 名 ， 则 调用 semantic056 完成 相应 的 语义 
动作 。 这 里 ， 先 不 必 深 究 第 22 行 、 第 23 行 的 功能 ， 笔 者 将 在 后 续 章 节 中 详 述 。 
第 25 行 : 检索 过 程 信息 表 ， 判 断 当 前 输入 标识 符 是 否 为 过 程 名 。 


第 26 一 83 行 : 由 于 当前 输入 标识 符 不 是 过 程 名 ， 即 为 常量 符号 名 或 变量 符号 名 。 因 


/ 


此 ， 语 义 子 程序 主要 完成 两 项 工作 : 


(1) 确定 输入 标识 符 是 常量 符号 名 还 是 变量 符号 名 。 同 时 ， 还 需要 确定 该 符号 是 全 局 符 


号 还 是 局 部 符号 。 由 于 同一 过 程 或 函数 内 的 符号 常量 名 与 变量 名 是 不 允许 重 名 的 ， 因 此 检索 


的 先后 顺序 并 没有 本 质 差异 。 不 过 ， 根 据 全 局 符号 与 局 部 符号 


先 检索 当前 过 程 所 属 的 局 部 符号 列表 。 这 个 检索 顺序 是 日 


可 随意 改变 。 第 29~65 行 的 代码 主要 就 是 完 
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名 的 相关 规范 ， 编 译 器 应 优 


语言 规范 确定 的 ， 编 译 器 设计 者 不 


项 工作 。 


(2) 根据 当前 输入 标识 符 的 性 质 ， 完 成 相应 的 语义 动作 。 


如 果 该 标识 符 是 常量 符号 


CONST， 并 设置 m_iLink 属性 。 最 后 
似 ， 无 需 借助 于 Var 对 象 完成 操作 数 翻 译 。 这 里 ， 值 得 济 
志 设 为 true 是 比较 重要 的 ， 有 助 于 后 


表达 式 语义 | 第 6 章 | 


名 ， 则 直接 生成 一 个 OpInfo 对 象 ， 设 置 m_iType 属性 为 


ey 
FEF 尽 ， 号 是 


， 将 其 压 入 Operand 栈 。 江 


符号 


号 与 普通 常量 类 


续 语 义 子 程序 的 合法 怕 


E 意 一 点 ， 第 72 行将 bConstFlag 标 
FE 判 断 。 通 常 ， 程 序 员 试 图 对 一 个 


常量 符号 进行 “[ ]”“.” 或 “^” 运 算 都 是 没有 意义 的 。 不 过 ， 根 据 文法 来 说 ,程序 员 却 可 


以 书写 类 似 的 表达 式 。 然 而 ， 
序 中 发 现 与 解决 这 些 问题 也 3 


因为 常量 符号 并 不 生成 Var 对 象 ， 所 以 编译 器 试图 在 语义 子 程 
F 不 容易 。 而 bConstFlag 标志 就 可 以 轻松 实现 这 一 功能 ， 它 的 主 


要 思想 就 是 略 过 非 终结 符 “ 变 量 ” 推 导 过 程 中 执行 的 语义 子 程序 ， 直 到 semantic053 为 止 。 


如 果 该 标识 符 是 变量 名 》 
76 一 79 行 代码 就 是 用 于 设置 Tmp 的 各 个 属性 。 其 中 ， 调 


根据 先前 讨论 的 原则 ， 生 成 Var 对 象 暂 存 变量 的 相关 信息 。 第 
了 PushVarType 函数 将 变量 的 类 


型 信息 压 入 了 Tmp.m_VarTypeStack 栈 。 第 80 行 代码 将 Tmp 压 入 CurrentVar 栈 。 


第 85 一 94 行 : 这 段 代 码 主要 月 
数 翻 译 类 似 ， 过 程 调用 的 翻译 同样 需要 栈 结 构 的 支持 ， 因 


于 处 理 输入 标识 符 为 过 程 名 时 的 相关 语义 动作 。 与 操作 


为 编译 器 不 得 不 考虑 某 一 函数 返回 


值 出 现在 另 一 个 过 程 〈 函 数 ) 调用 语句 的 实 参 列 表 中 的 情况 ， 例 如 ，a(b(2))。 因 此 ， 笔 者 设 


置 了 一 个 ProcCall 结构 及 一 个 CurrentProcCall 栈 用 于 处 
在 操作 数 翻译 中 ， 主 要 涉及 一 
此 ， 笔 者 不 打算 详细 解释 各 字段 属性 的 含义 与 作用 ， 读 者 只 


过 程 〈 函 数 ) 调用 的 语句 的 翻译 。 


些 将 过 程 相 关 信 息 保存 到 ProcCall 对 象 中 的 语义 处 理 动作 。 在 


可 。 过 程 (函数 ) 调用 的 处 


生成 操作 数 寻 址 IR。 


程序 6-11 semantic.cpp 
相关 文法 : 


里 将 在 后 续 章 节 中 详细 讨论 。 
前 面 已 经 分 析 了 semantic054 的 实现 细节 。 下 面 看 看 semantic053 的 相关 源 代码 实现 。 


semantic053 是 操作 数 翻 译 的 核心 语义 子 程序 ， 它 的 主要 工作 就 是 根据 Var 对 象 的 相关 信息 ， 


需 大 概 了 解 该 程序 段 的 作用 即 


因子 一 ”变量 053 

1 bool semantic053() 

2 四 

3 if (bConstFlag) 

4 { 

5 bConstFlag=false; 

6 return true; 

4 } 

8 if (CurrentVar.empty()) 

9 { 
10 return true; 
11 } 
12 if (bWithFlag) 
13 { 
14 TmpWithField.m Var=CurrentVar.top(); 
15 TmpWithField.m iRestoreIR=SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()) 
16 .m Codes.size()-l1; 
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17 
18 
19 
20 
ol 
2 
2 
24 
25 
26 
2 
28 
29 
30 
31 
3 
33 
34 
3 
36 
3 
38 
9 


} 


OpInfo Tmp; 

Tmp.m iType=OpInfo::VAR; 

Tmp.m iLink=CurrentVar.top().m iVarLink; 

Tmp.m iDetailType=CurrentVar.top().m_ VarTypeStack; 

if (CurrentVar.top().m VarTypeStack.top().m_StoreType==—StoreType::T_POINTER) 
Tmp.m_ bRef=false; 

else 
Tmp.m_ bRef=CurrentVar.top().m_bRef; 

if (CType::IsOffsetVar(CurrentVar.top().m VarTypeStack) && 
CurrentVar.top().m_eOffsetType!=OffsetType::NoneOffset) 


OpInfo Op1,Rslt; 

int iConstOffset=0; 

for(vector<OffsetStruct>::iterator it=CurrentVar.top().m_ OffsetVec.begin(); 
it!l=CurrentVar.top().m_ OffsetVec.end();it++) 


if (it->m eOffsetType==OffsetType::ConstOffset) 


{ 
iConstOffset+=SymbolTbl.ConstInfoTbl[it->m iOffsetLink].m iVal; 
} 
} 
if (CurrentVar.top().m _eOffsetType==OffsetType::ConstOffset) 
{ 
Opl.m iType=OpInfo::CONST; 
iConstOffset+=SymbolTbl.ConstInfoTbl[CurrentVar.top() 
.m_ iOffsetLink].m iVal; 
Opl.m iLink=SymbolTbl.RecConstTbl(itos(iConstOffset),3); 
iConstOffset=0; 
} 
else 
{ 


Opl.m iType=OpInfo::VAR; 
Opl.m iLink=CurrentVar.top().m_iOffsetLink; 


} 


Rslt.m iType=OpInfo::VAR; 

Rslt.m bRef=false; 

Rslt.m iDetailType=Tmp.m iDetailType; 

Rslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(),StoreType::T_ POINTER); 
if (ISymbolTbl.IsTmpVar(Tmp.m iLink)) 


下 
1 


if (!SymbolTbl.IsVarPara(SymbolTbl.VarInfoTbl[Tmp.m iLinkl].m szName 
,SymbolTbl.VarInfoTbl[Tmp.m iLink].m iProcIndex) && 
CurrentVar.top().m_bRef—=false) 


OpInfo TmpRslt=Rslt; 


63 
64 
65 
66 
07 
08 
69 
70 
71 
1 
18 
74 
73 
76 
YY 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 
100 
101 


1 
了 了 


} 
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TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top() 


,StoreType::T_ POINTER); 
SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes 


.push back(EmitIR(OpType::GETADDR,Tmp,TmpRslt)); 


Tmp=TmpRslt; 


Tmp.m_bRe 仁 false; 


} 


SymbolTbl.ProcInfoTblat(SymbolTbl.ProcStack.topO).m_Codes 
.push back(EmitIR(OpType::ADD 4,Tmp,Op1,Rslt)); 

if (iConstOffset!=0) 

{ 
Opl.m iType=OpInfo::CONST,; 
Opl.m iLink=SymbolTbl.RecConstTbl(itos(iConstOffset),3); 
SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes 

.push back(EmitIR(OpType::ADD 4,Rslt,Op1,Rslt)); 


} 


for(vector<OffsetStruct>::iterator 1t=CurrentVar.top().m_ OffsetVec.begin() 
;it!l=CurrentVar.top().m_ OffsetVec.end();it++) 


if (it->m eOffsetType==OffsetType:: VarOffset) 
{ 
Opl.m iType=OpInfo::VAR; 
Opl.m bRef=false; 
Opl.m iLink=it->m iOffsetLink; 
SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes 
.push back(EmitIR(OpType::ADD 4,Rslt,Op1,Rslt)); 


} 


Rslt.m bRef=!(CurrentVartop().m_ VarTypeStack.top().m_ StoreType—StoreType::T_ POINTER); 


Tmp=Rslt; 


Operand.push( Tmp); 
CurrentVar.pop(); 
return true; 


第 3~7 行 : 根据 bConstFlag 标志 ， 判 断 是 否 需 要 完成 后 续 工作 。semantic053 是 用 于 生 
成 变量 操作 数 的 寻 址 IR 的 ， 对 于 常量 符号 是 没有 任何 意义 的 ， 必 须 略 过 。semantic053 是 非 


终结 符 “ 


变量 ”推导 过 程 中 的 最 后 


个 语义 子 程序 ， 因 此 ， 在 第 5 行 中 ， 将 bConstFlag 设 回 


初始 状态 false。 实 际 上 ， 当 输入 标识 符 为 常量 符号 名 时 ,“ 变 量 ” 推 导 过 程 中 的 所 有 语义 子 


意义 了 。 


星 序 都 将 被 略 过 ， 直 至 执行 完 semantic053 后 。 至 此 ， 读 者 应 该 能 够 到 


E 解 bConstFlag 标志 的 


259 


B ER i 
辐 、 编译 器 设计 之 路 
ee 


第 12 一 17 行 : 根据 bWithFlag 标 


第 18 一 25 行 : 
象 。 实 际 上 ， 人 也 高 
量 的 特殊 语义 处 理 。 


第 26、27 行 : 判断 当前 操作 数 是 否 存在 1 
下 两 条 判断 标准 : 
(1) m_eOffsetType 属性 不 为 NoneOffset。 这 里 ， 


判断 偏 移 信息 是 否 


有 效 。 遵 守 如 


4 9 


完成 with 结构 的 相关 语义 处 理 。 
根据 CurrentVar 栈 顶 元 素 ， 即 当前 操作 数 的 Var 信息 


是 将 变量 的 首 地 址 打包 成 一 个 OpInfo 对 象 。 这 里 ， 


光 
得 六 
ER 


值 


wy 


i 移 信息 。 注 


a 


移 ， 而 只 需 界 定 是 否 存 在 偏 移 即 


日 


本 。 


人 心 \ 9» 


生成 OpInfo 对 
意 的 是 指针 变 


局 


民 据 当前 操作 数 的 Var 信息 ， 


户 


可 能 并 不 需要 关心 常量 人 


(2) m_ VarTypeStack 栈 中 是 
他 数据 类 


可 能 存在 偏 移 信 息 ， 


m_VarTypeStack 栈 中 存在 记录 类 型 或 数组 类 型 描述 信息 时 ， 操 作 数 的 偏 移 信 息 才 可 能 
位 置 ， 而 只 关注 其 存在 与 
ij 移 信 息 ， 生 成 操作 数 寻 址 及， 这 是 semantic053 的 
寻 址 部 分 的 食 主要 由 以 下 两 部 分 组 成 : 
首 地 址 的 IR 指令 (GETADDR)。 获 取 首 地 址 下 指令 的 操作 数 是 输入 源 
其 结果 是 一 个 存储 地 址 的 临时 指针 变量 。 


的 。 当 然 ， 这 里 并 没有 强调 该 类 
第 28 一 97 行 : 根据 当前 操 
核心 代码 段 。 简 而 言 之 ， 操 作 数 
(1) 获取 符号 


程序 的 某 个 数组 或 记录 对 象 ， 


(2) 释 加 偏 移 的 IR 指令 (ADD_4)。 无 论 是 常量 偏 移 还 是 变量 1 


需要 生成 加 法 指令 来 计算 首 地 址 


不 
口 


包含 记录 类 型 
型 根本 不 需要 关注 该 属性 。 因 


或 数组 类 型 描述 。 


i 移 或 变量 人 


出 


只 有 数组 元 素 或 记录 字段 


此 ， 仅 当 用 


于 跟踪 类 型 变化 的 


车 


信息 的 详 
作 数 的 


不 
条 o 


与 偏 移 的 和 。 


器 
人 


i 移 ? 


例如 ，house.address.road 操作 数 相 应 的 代 序列 如 下 : 


(GETADDR， 
(ADD 4, 


house, 


_Tl, 8, 


操作 数 翻译 与 表达 式 翻 译 的 接口 就 是 Operand 栈 ，7 


NULL, 


_T1) 
_T1) 


// 获 得 house 的 首 地 址 


// 分 析 road 字段 ， 生 成 计算 road 1 


了 效 


人生 


要 存在 偏 移 ， 就 


扁 移 的 信 


大 者 是 通过 Operand 栈 传递 数据 的 。 


前 者 将 得 到 的 操作 数 压 入 Operand 栈 。 而 后 者 根据 运算 符 的 目 数 ， 从 Operand 栈 弹 出 操作 


数 ， 生 成 相应 的 及， 并 将 结果 操作 数 有 
难 发 现 ， 将 操作 数 压 栈 的 动作 将 由 


数 与 有 偏 移 量 的 操作 数 的 处 理 
变量 T1 中 存储 的 值 是 


延 


党 是 将 “ T1” 直 接 压 入 Operand 栈 。 实 际 上 ， 这 种 做 法 是 不 正确 
以 二 =house.address.road-1 为 例 ， 编 译 器 可 能 得 到 如 下 IR 序列 : 


(GETADDR, house， NULL, _T1) 
(ADD 4, Tl, 8， _T1) 
(SUB 4, Tl, 1 i ) 
非常 明显 ， 
是 一 个 地 址 ， 这 个 结果 并 不 是 月 


到 的 是 _T1 所 示 地 址 指向 的 存储 空间 内 
址 后 再 访问 。 因 此 ， 对 于 编译 器 而 言 ， 


同一 个 操作 数 在 不 同 IR 中 的 访 
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是 不 尽 相 同 的 。 以 好 


/获得 house 的 
// 分 析 road 字 


次 压 入 Operand 栈 ， 以 备 后 用 。 根 据 前 面 的 分 析 ， 不 
局 移 量 的 操作 


semantic053 完成 。 这 里 ， 值 得 注意 的 是 无 
前 的 “ T1” 为 例 ， 根 据 IR 的 语义 ， 临 时 
个 地 址 (house 首 地 址 +8)。 按 照 无 偏 移 量 的 操作 数 的 处 理 


的 。 


本 


地 址 
段 ， 生 成 计算 road 1 


// 将 _T1 直接 压 入 Operand 栈 


双 b 日 
有 下 


问 方式 也 可 


// 计 算 i:=house.address.road-1 


第 3 句 IR 的 含义 是 将 临时 变量 T1 的 值 减 1 后 赋 给 i。 不 过 ， 由 于 _T1 中 的 值 
昌 户 所 预期 的 。 实 际 上 ， 从 输入 源 程序 的 语义 来 说 ， 期 望 得 
的 值 ， 换 句 话说 ， 就 是 需要 对 _T1 进行 一 次 间接 导 
区 分 直接 寻 址 访问 或 间接 寻 址 访问 是 非 
前 两 句 IR 中 


不 同 的 。 在 上 例 中 ， 


方式 ， 通 


扁 移 的 信 


ND 
[3 


常 重要 的 。 


的 T1 都 


首 
下 


用 m_bRef 来 标 


问 ， 肥 之 则 表示 i 


可 
m_bRef 标志 ， 和 否则 将 导致 程序 异常 。 在 本 书 的 IR 文本 中 ,使 用 “@ 


访问 ， 例 如 : 


(SUB 4, 


即 表示 


@_T!1, 


Pascal 的 “(@” 运 和 


这 里 ， 讨 论 
理 地 址 在 编译 阶 
机 器 环境 下 ， 物 


符 的 区 别 。 


1, 


识 下 操作 数 的 寻 贱 
辫 操 作 数 为 直接 


了 一 种 具有 通 
段 是 不 可 知 的 ， 


列 实 现 同样 的 语 


义 。 事 实 上 


作 系 统 ， 
由 链接 器 完成 的 
未 知 的 。 因 


理 地 址 ( 首 地 二 


上 


表达 式 语义 | 第 6 和 


i ) 


物理 地 址 是 


) 


j 意 义 的 操作 数 寻 址 方式 ， 使 用 这 种 方式 上 
由 操作 系统 分 配 的 。 不 过 ， 


在 编译 阶段 是 


程序 空间 的 分 配 都 是 在 编译 阶段 完成 的 。 在 这 种 必 


， 而 不 是 1 


句 ) 是 一 个 值得 


深入 天 


IR 的 处 理 流程 
三 个 实现 细节 : 


(1) 临时 变量 


1、 翻 译 含有 
都 不 可 


后 


“@” 运 


编译 器 本 身 直 接 完成 的 。 至 少 在 语义 处 到 
此 ， 在 类 似 的 系统 结构 下 ， 如 何 生 成 更 为 简洁 的 IR 序列 
究 的 问题 。 关 于 这 个 话题 ， 


直接 寻 址 访问 ， 而 最 后 一 句 IR 中 的 _T1 应 该 是 间接 寻 址 访问 。 在 Neo Pascal 中 ， 笔 者 使 
止 访问 方式 ，m_bRef 为 true 表示 该 操作 数 为 间接 寻 址 访 
址 访问 。 在 生成 IR 序列 时 ， 设 计 者 应 该 谨慎 处 理 


9 太 夺 品 


符号 


表示 间接 寻 址 


各 临时 变量 T1 的 内 容 作 为 地 址 寻 址 得 到 的 值 减 1 后 送 入 i。 读 者 必须 注意 与 标准 


的 前 提 就 是 对 象 的 物 
假设 在 某 些 特定 的 


已 知 的 ， 那 么 ， 也 可 以 通过 更 简洁 的 及 序 


， 这 种 假设 并 非 无 稽 之 谈 ， 一 些 庶 入 式 系统 并 


F 没 有 真正 意义 的 操 


笔者 就 不 再 深入 盖 


， 阅 读 与 理解 相关 源码 并 不 复杂 。 


的 取 地 址 。 


符 的 表达 式 。2、 获 取 复 
能 出 现 对 临时 变量 进行 取 地 址 运 


。 不 过 


杂 类 型 


4 况 下 ， 物 
EE 阶段，4 
(上 略 去 取 首 地 址 
述 。 了 解 了 操作 数 寻 址 
下 面 ， 针 对 Neo Pascal 的 源 代 码 ， 笔 者 谈 


里 地 二 


鸭 理 地 址 仍然 


的 分 配 通 常 是 
是 


的 下 语 


通常 ， 取 地 址 运算 (GETADDR ) 只 可 能 在 两 
变量 的 首 地 址 。 事 实 上 ， 这 两 种 情形 


情形 下 出 现 : 


， 有 一 种 特殊 的 情形 是 值得 注意 的 ， 那 就 是 


候 


对 复杂 变量 的 某 个 元 素 取 地 址 ， 例 如 ，@a[1]、@(house.road) 等 。 这 里 ， 以 @(house.road) 为 
例 ， 按 照 先前 讨论 的 翻译 规程 ， 编 译 器 将 产生 如 下 IR 序列 : 


(GETADDR, 
(ADD 4, 


house, 
_T 1 > 


(GETADDR, @ Tl, 


区、》 


YS 
六 


IR 序列 中 “@ TI 2 


NULL， TI) 
8&， _T1) 
NULL,  _T2) 


// 获 得 house 的 首 地 址 
// 分 析 road 字段 ， 


// 获 得 @_T1l 的 地 址 ， 


示 _T1 是 间接 寻 址 操作 数 。 从 语义 上 来 说 ， 第 3 行 IR 的 翻 i 


没有 错 ， 它 的 含义 是 将 T1 值 所 指示 的 存储 空间 的 地 址 赋 给 T2。 不 过 ， 这 
数据 本 身 就 是 house.road 的 地 址 ， 根 本 不 需要 进行 间接 寻 


党 繁 琐 的 。 事 实 上 ，_T1 中 存放 的 
址 后 再 取 地 址 。 到 


(ASSIGN 4, 


(2) 变 参 的 取 地 址 。 变 参 是 一 
形 参 。 不 过 ， 对 于 程序 员 而 言 ， 


运算 ， 这 个 过 程 


_ 工 1， 


1， 


_T2) 


' 比 较 特殊 的 


编译 鼎 处 


间 
古 | 


给 目标 对 象 即 可 


(3) 闪 加 m_OffsetVec 向 量 所 存储 的 常量 1 


这 是 完全 透明 的 。 在 引 


里 的 。 
， 并 不 需要 生成 取 地 址 相关 的 IR。 
遍 移 。 在 此 ， 笔 者 暂且 不 介 


因此 ， 对 形 


想 的 方案 是 将 第 3 行 及 蔡 换 成 如 下 形式 : 


/将 T1 


传 参 方式 。 


的 地 址 赋 给 T2 


生成 计算 road 偏 移 的 下 
赋 给 _T2 


对 并 


1 


翻译 方式 是 


其 本 质 就 是 将 实 参 的 地 址 传递 给 
] 形 参 时 ， 并 不 需要 对 形 参 人 


A 


参 取 地 址 时 ， 编 


译 器 只 需 直 接 将 形 参 的 值 赋 


m_OffsetVec 向 


量 的 作用 ， 读 者 只 需 了 解 m_OffsetVec 中 的 常量 同样 作为 偏 移 处 理 即 可 。 关 于 m_OffsetVec 


261 


编译 器 设计 之 路 


Se 


向 量 ， 将 在 后 续 章 节 中 详解 。 在 本 例 中 ， 第 31 一 38 行 即 用 于 处 理 m_OffsetVec 向 量 。 


第 98 行 : 将 结果 操作 数 压 入 Operand 栈 ， 供 表达 式 翻 译 相 关 语 义 子 程序 使 用 。 
第 99 行 : 至 此 ， 一 个 完整 的 操作 数 就 分 析 完 了 ， 故 将 CurrentVar 栈 顶 元 素 弹出 。 


6.5.4 ”记录 字段 操作 数 的 翻译 
记录 是 由 若干 已 知 类 型 的 数据 元 素 组 合 而 成 的 一 种 复合 数据 类 型 ，C 语言 中 称 之 为 “ 结 
众所周知 ， 记 录 类 型 有 一 个 非常 重要 的 特点 ， 就 是 记录 变量 的 字段 〈 分 量 ) 是 连续 存 
。 因 此 ， 根 据 操 作 数 的 字段 名 ， 编 译 器 是 可 以 得 到 相应 的 常量 偏 移 的 。 如 图 6-9 所 示 。 


构 ”。 
储 的 


序 ， 


逻辑 空间 块 首 地 址 的 常量 偏 移 。 实 际 上 ， 上 


式 。 
简单 
在 后 
否认 


大 多 


实现 


源 程序 代码 逻辑 地 址 空间 分 配 


A:RECORD 
Al.integer; 


图 6-9 记录 存储 分 配 示意 图 (未 经 过 数据 字 对 齐 处 理 ) 


这 是 记录 类 型 变量 A 的 标准 存储 形式 ， 从 图 中 可 以 看 到 编译 器 是 按 字段 声明 的 9 


E 后 顺 


依次 组 织 各 字段 数据 的 。 由 此 ， 编 译 器 就 可 以 根据 符号 表 相关 记录 计算 得 到 一 个 本 


日 对 于 


图 所 示 并 不 一 定 是 记录 类 型 变量 A 的 实际 存储 形 
在 存储 分 配 时 ， 根 据 字 段 的 类 型 信息 ， 分 配 算法 将 得 到 一 个 更 合理 的 分 配方 案 ， 未 必 是 
地 按 字 段 声 明 先 后 来 组 织 字 段 的 存储 结构 的 。 存 储 分 配 是 一 个 比较 复杂 的 话题 ， 笔 者 将 
续 章 节 中 详细 讨论 。 不 过 ， 无 论 记录 类 型 变量 的 内 部 组 织 形式 如 何 ， 有 一 个 事实 是 不 可 


的 ， 那 就 是 字段 相对 于 记录 变量 首 地 址 的 偏 移 在 编译 阶段 是 已 知 的 和 常量。 迄今 为 上 上 ， 绝 
数 程序 设计 语言 仍然 是 遵守 这 个 约定 的 。 虽 然 一 些 新 型 语言 对 传统 的 记录 类 型 的 理解 或 


可 能 存在 一 定 的 差异 ， 但 始终 没有 突破 这 一 底线 。 


在 记录 类 型 的 字段 信息 表 中 专门 有 一 个 属性 (m _iOffset〉 用 于 描述 字段 相对 于 记录 变量 
首 地 址 的 偏 移 。 这 里 ， 读 者 并 不 需要 关心 编译 器 如 何 计 算 m_iOffset 属性 ， 只 要 知道 如 何 应 


用 即 可 。 下 面 ， 先 来 看 看 记录 字段 操作 数 的 相关 文法 : 
【文法 6-4】 
因子 一 变量 053 
变量 一 ”标识 符 054 变量 1 
变量 1 一 . 标识 符 056 变量 1 
笔者 已 经 详细 分 析 了 semantic053 与 Semantic054 的 实现 。 由 于 简单 变量 操作 数 并 不 涉及 
偏 移 量 的 问题 ， 所 以 不 需要 生成 计算 偏 移 的 IR 语句 。 然 而 ， 本 小 节 将 更 多 关注 操作 数 偏 移 
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的 相关 话题 ， 


操作 数 寻 址 复杂 得 多 ， 针 对 不 同 的 代码 情景 ， 编 译 器 设计 者 必须 做 
19，a[ 训 .jp、a[1]^p 或 者 a^.p 等 形式 的 处 理 。 从 文法 上 来 说 ， 不 难 
因此 ， 详 细 分 析 semantic056 的 实 


发 现 ， 处 理 
现 对 于 理 角 
根据 : 
(1) 


-Fd 


I 


本 


> 


E 保 证 编译 的 正确 性 。 例 
操作 数 偏 移 的 动作 就 是 由 
操作 数 人 


前 操作 数 没 


表达 式 语义 | 第 6 党 


因为 记录 字段 操作 数 是 


这 是 


ij 移 处 理 的 基本 思 


semantic056 完成 的 。 
想 是 非常 重要 的 。 
前 操作 数 信息 ( 即 CurrentVar 的 栈 顶 元 素 )， 通 常 分 为 如 下 三 种 情形 处 理 : 
偏 移 ， 即 CurrentVar 栈 顶 元 素 的 m_eOffsetType 值 为 NoneOffset。 


需要 偏 移 信 息 的 。 实 际 上 ， 操 作 数 偏 移 的 问题 远 上 


LD 


E 常 周详 的 考虑 ， 否 则 很 


由 于 记录 字段 的 偏 移 是 党 
统一 处 理 。 


semantic053 


mw 


(2) 当前 操作 数 的 偏 移 类 型 为 常量 偏 移 ， 


为 ConstOffset。 由 于 当前 操作 数 的 原 1 


] CurrentVar 


EE 偏 移 ， 所 以 只 需 将 常量 偏 移 登 记 在 当前 操作 数 信 息 中 即 可 ， 以 便 


的 栈 顶 元 素 的 m_eOffsetType 值 


器 就 必须 将 两 个 常量 偏 移 相 加 折 蕾 。 


(3) 当前 操作 数 的 偏 移 类 型 为 变量 1 
。 在 这 种 情况 下 ， 不 存在 常量 折 车 的 可 能 性 ， 所 以 编译 器 


为 VarOffset 


户 
站 


移 ， 有 


句 ， 以 完成 人 


i 移 值 的 累加 。 


局 移 与 当前 记录 字段 的 


i 移 都 是 常量 偏 移 ， 那 么 ， 编 译 


CurrentVar 


的 栈 顶 元 素 的 m_eOffsetType 值 
只 能 生成 相应 的 IR 语 


从 了 乳 


程序 6-12 semantic.cpp 
相关 文法 : 
变量 1 ”一 .标识 符 056 变量 1 
1 bool semantic056() 
2 { 
3 if (bConstFlag || CurrentVar.empty()) 
4 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
7 } 
8 Var TmpVar; 
9 string szTmp=TokenList.at(iListPos-1).m_ szContent; 
10 TmpVar=CurrentVar.top(); 
11 int i; 
喝 for(i=0;i<SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.top() 
13 .m iLink].m FieldInfo.size();i++) 
14 { 
15 if (SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.top().m iLink] 
16 .m FieldInfo.at(i).m_ szName.compare(szTmp)==0) 
17 break; 
18 } 
19 if (il=SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.top() 
20 .m iLink].m FieldInfo.size()) 
21 { 
2 和 2 FieldInfo *pFieldInfo=&(SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack 
23 .topO.m iLink].m FieldInfo.atQ)); 
24 int iTmpOffset=pFieldInfo->m iOffset; 
23 OffsetType TmpOffsetType=OffsetType::ConstOffset; 
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编译 器 设计 之 路 


} 


else 


if (CurrentVar.top().m _eOffsetType==OffsetType::NoneOffset) 


{ 
iTmpOffset=SymbolTbl.RecConstTbl(itos(iTmpOffset),3); 
} 
if (CurrentVar.top().m_eOffsetType==OffsetType::ConstOffset) 
{ 
iTmpOffset=SymbolTbl.RecConstTbl(itos(iTmpOffsettSymbolTbl.ConstInfoTbl 
[CurrentVar.top().m iOffsetLink].m iVal),3); 
} 
if (CurrentVar.topO.m eOffsetType==OffsetType::VarOffset) 
{ 
TmpOffsetType=OffsetType::VarOffset; 
OpInfo Op1,Op2,Rslt; 
Opl.m iType=OpInfo::VAR; 
Opl.m iLink=CurrentVar.top().m iOffsetLink; 
Op2.m iType=OpInfo::CONST; 
Op2.m iLink=SymbolTbl.RecConstTbl(itosGTmpOffset),3); 
Rslt.m iType=OpInfo::VAR; 
Rslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top() 
,StoreType::T_INTEGER); 
iTmpOffset=Rslt.m iLink; 
if (I!GenIR(Op1,Op2,Rslt,BasicOpType::ADD)) 
return false; 
} 


TmpVar.m eOffsetType=TmpOffsetType; 

TmpVar.m iOffsetLink=iTmpOffset; 

TmpVar.m VarTypeStack.push(VarType(SymbolTbl.TypelInfoTbl[CType::GetRealType 
(pFieldInfo->m iLink)].m eDataType 
,CType::GetRealType(pFieldInfo->m iLink))); 

CurrentVar.pop(); 

CurrentVar.push(Tmp Var); 

return true; 


EmitError(" 字 段 未 声明 ",TokenList.at(iListPos-1)); 
return false; 


第 3~7 行 : 如 果 当 前 主 符号 是 常量 符号 ， 那 么 ， 对 常量 进行 “.” 运 算是 无 意义 的 。 

第 12 一 18 行 : 遍历 当前 操作 数 的 字段 列表 ， 以 获取 相应 的 3 段 信息 。 编译 器 以 输入 标 
识 符 为 关键 字 检索 当前 操作 数 所属 记 录 类 型 的 字段 列表 ， 以 此 判断 输入 标识 符 的 有 效 性 。 

第 19 一 20 行 : 输入 标识 符 的 有 效 性 检查 。 根 据 文 法 形式 ， 输 入 标识 符 必 定 是 当前 操作 


数 所 | 局 记录 类 下 型 的 某 一 字段 ， 否 则 即 存在 语义 错误 。 
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22 一 24 行 : 根据 检索 结果 ， 令 pFieldInfo 指向 相应 字段 ， 以 便 后 续 处 理 。 同 时 ， 获 


以 备 后 用 。 注 意 ，iTmpOffset 变量 就 是 用 了 


三 
量 1 


取 该 字段 的 偏 移 信息 。 
第 26 一 29 行 
属性 即 可 。 
第 30 一 34 行 
是 用 两 个 常 


信息 表 或 变量 


际 上 ， 就 
量 偏 移 相 力 
Rslt， 主 要 用 了 
后 ， 必 须 尘 

第 50 一 56 行 : 生成 一 个 
是 m_ VarTypeStack 栈 的 设置 。m_ VarTypeStack 栈 主要 是 
并 予以 记录 。 其 中 ， 栈 顶 元 素描 述 的 就 是 当前 操作 数 
semantic056 之 前 ， 当 前 操作 数 是 一 个 记录 类 型 变量 。 然 而 ， 在 调用 以 后 


息 了 


个 记录 字段 变量 。 为 了 跟踪 类 型 变化 的 过 程 ， 
m_VarTypeStack 栈 ， 而 不 是 简单 地 覆盖 原始 类 型 信息 。 
至 此 ， 笔 者 已 经 分 析 了 记录 字段 操 
键 所 在 ， 了 解 了 常量 偏 移 的 处 理 


量 . 说 ， 


偏 移 的 折 


县 是 常量 折 县 的 一 种 特 
其 忽略 ， 直 至 IR 优化 再 作 处 理 


些 类 似 了 


为 期 间 可 
程 中 ? 但 是 ， 


动 ， 即 在 最 


能 发 


构 的 限制 。 


: 如 果 当 前 操作 数 的 


: 如 果 当 前 操作 数 的 偏 


局 移 的 和 生成 一 个 新 的 常量 ， 
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局 移 类 型 为 无 偏 移 ， 则 只 需 直 接 修改 当前 操作 数 相 关 


局 移 ， 则 完成 常量 偏 移 的 折 有 全。 也 就 
开 将 该 常量 的 位 序 信 息 存 入 iTmpOffset 变量 中 ， 


并 不 严格 区 分 常量 


时 信息 表 ， 而 是 视 结 果 偏 移 1 
第 35 一 49 行 : 如 果 当 前 操作 数 的 1 
E 成 一 条 操作 码 为 “ADD 4” 的 下 语句 
[后 暂 存 于 一 个 临时 变量 中 。 这 里 ， 分 别 声明 
表示 当前 操作 数 的 1 
FE 意 Operand 栈 的 维护 。 
Var 对 象 ， 设 置 完 相 应 的 属性 后 压 入 Operand 栈 。 值 得 注意 的 
于 跟踪 操作 数 类 型 的 变化 情况 ， 
。 实 际 上 ， 在 调用 


言 息 的 实际 情况 而 定 的 。 
前 移 类 型 为 变量 偶 


移 ， 则 直接 生成 计算 偏 移 的 了 及。 实 


移 、 字 段 的 常量 


芷 数 的 翻译 与 处 到 


， 将 当前 操作 数 的 偏 移 与 当前 字段 的 常 
OpInfo 对 象 ， 即 Op1、Op2、 
ji 移 及 结果 操作 数 。 当 然 ， 在 生成 IR 


， 当 前 操作 数 就 是 


通常 会 将 当前 操作 数 的 最 新 类 型 信息 压 入 


EE 过程。 其 中 ， 常 量 偏 移 的 折 半 是 关 


i 译 器 之 类 的 复杂 系统 时 ， 应 i 
生 的 变化 有 时 是 很 难 预见 的 。 昌 然 下 优化 作为 单独 的 
优化 问题 集中 到 这 一 点 上 处 理 。 
该 问题 是 最 优 的 选择 ， 而 不 必 过 多 拘泥 于 模块 结 
表达 式 的 短路 问题 亦 是 如 此 。 当 然 ， 也 可 以 将 短路 问题 视 作 


并 不 意味 着 必须 将 所 有 的 
有 利于 解决 某 一 问题 的 时 
在 C 编译 器 中 ， 逻 加 


对 于 理解 后 续 章节 是 相当 有 用 的 。 事 实 上 ， 严 格 来 说 ， 常 量 
例 ， 也 是 IR 优化 讨论 的 范畴 。 
。 不 过 ， 笔 者 却 不 认为 这 是 一 个 值得 提 人 
玄 尽 可 能 避免 将 即时 日 


在 语义 处 理 中 ， 完 全 可 以 将 


的 做 法 。 在 设计 一 


8 现 的 问题 延 后 到 后 期 处 理 ， 因 


刻 处 到 


IR 优化 


畴 ， 不 过 ， 可 能 因 


6.5.5 ”数组 翻译 基础 


相 比 记录 类 型 而 言 ， 数 组 可 能 更 深入 人 心 。 笔 者 相信 可 能 存 忆 


此 而 付出 


里 ， 笔 者 


js 


视 这 种 最 通 


j 的 构造 类 型 。 


编 址 的 。 数 组 


数组 的 存储 布局 
数组 是 一 种 连续 存储 的 数 扩 


遍 存 在 于 整个 编译 过 
笔者 的 观点 是 适时 而 


E 不 支持 记录 类 型 的 语言 ， 
却 不 可 能 存在 不 支持 数组 的 语言 。 关 于 数组 的 基本 概念 ， 似 乎 已 经 没有 冰 述 的 必要 了 。 这 
各 从 编译 器 实现 的 角度 来 深入 剖析 数组 的 特性 ， 让 读者 从 一 个 畦 新 的 视角 来 重新 审 


是 将 下 标 引 用 转换 为 逻辑 地 址 的 基础 。 由 于 一 维 数组 的 形态 本 身 就 


知 ， 物 理 存储 区 都 是 线性 
又 中 的 组 织 形 式 ， 这 


形态 的 数组 在 线性 物理 


四 结构 ， 用 户 通常 以 下 标 形式 存 取 数组 的 元 素 。 那 么 ， 下 标 与 
数组 元 素 罗 辑 地 址 的 映射 关系 就 是 编译 器 所 关心 的 。 然 而 ， 众 所 周 
的 存储 布局 主要 就 是 讨论 


线性 结构 ， 其 存储 布局 
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与 本 身 的 形态 基本 一 致 ， 故 不 再 详 述 。 这 里 ， 先 以 二 维 数组 为 例 ， 引 入 数组 存储 布局 的 相关 
问题 。 然 后 ， 再 将 其 结论 推广 到 更 一 般 的 多 维 数组 中 。 

二 维 数组 的 映射 方案 主要 有 如 下 三 个 : 行 优先 映射 、 列 优先 映射 、 间 接 向 量 映射 。 对 于 
读者 来 说 ， 前 两 种 方案 应 该 并 不 陌生 。 几 乎 任何 一 个 程序 设计 课程 都 会 对 此 作 相 关 说 明 ， 因 
此 ， 笔 者 就 不 再 歼 述 了 。 较 之 前 两 者 ， 在 过 去 很 长 一 段 时 期 内 ， 间 接 向 量 映射 的 概念 却 并 没 
有 得 到 普及 ， 直 至 Java 的 出 现 。 

所 谓 “ 间 接 向 量 映射 ”就 是 使 用 间接 向 量 把 所 有 多 维 数组 压缩 在 一 个 向 量 集合 中 。 以 一 
个 普通 的 二 维 数组 为 例 ， 采 用 间接 向 量 映射 的 存储 布局 如 图 6-10 所 示 。 


第 1 列 第 2 列 第 3 列 第 4 列 第 5 列 


图 6-10 ”间接 向 量 映射 的 存储 布局 


仔细 观察 图 6-10， 不 难 发 现 这 种 存储 布局 的 特点 就 是 每 一 行 元 素 是 连续 存储 的 ， 行 之 
间 是 完全 离散 的 。 编 译 器 借助 一 个 行 向 量 完 成 行 寻 址 操作 ， 而 行内 元 素 的 寻 址 与 一 维 数组 完 
全 一 样 。 同 样 ， 间 接 向 量 映射 也 存在 行 优先 或 列 优先 之 分 。 

从 存储 布局 来 看 ， 这 带 来 了 两 个 新 问题 。 

(1) 增加 了 间接 向 量 的 空间 开销 。 传 统 行 ( 列 ) 优先 映射 并 不 需要 借助 间接 向 量 引 用 元 
素 ， 而 这 种 方案 却 不 得 不 借助 间接 向 量 来 完成 元 素 寻 址 。 事 实 上 ， 随 着 数组 维 数 的 增 大 ， 间 
接 向 量 的 开销 是 非常 可 观 的 。 以 一 个 3X3X4 的 数组 为 例 ， 将 多 消耗 9 个 存储 空间 用 于 存储 
间接 向 量 。 

(2) 建立 间接 向 量 需 要 大 量 的 初始 化 代码 ， 用 于 处 理 所 有 间接 向 量 内 部 的 指针 。 

当然 ， 间 接 向 量 映射 方式 也 有 其 自身 的 魅力 ， 是 传统 映射 方案 无 法 比拟 的 。 它 降低 了 目 
标 程序 对 连续 存储 区 的 需求 是 毋庸 置 颖 的。 其次， 间接 向 量 映 射 对 于 处 理 那些 异形 数组 的 优 
势 比较 明显 。 传 统 映射 方案 也 可 以 处 理 异 形 数 组 ， 但 代价 较 大 。 
在 目前 流行 的 程序 设计 语言 中 ， 行 优先 映射 方案 是 应 用 最 广 的 ， 例 如 ，C、Pascal、C++ 
等 采用 这 种 映射 方案 ， 只 有 一 个 经 典 的 例外 就 是 Fortran， 它 使 用 了 列 优先 映射 方案 。 而 一 些 
较 新 的 语言 都 支持 间接 向 量 的 映射 方案 ， 最 典型 例子 的 就 是 Java。 

最 后 ， 将 二 维 数组 的 映射 方案 推广 到 多 维 数组 中 。 与 二 维 数组 类 似 ， 多 维 数组 也 有 三 种 
映射 方案 ， 即 左下 标 优先 映射 、 右 下 标 优先 映射 、 间 接 向 量 映 射 。 由 于 多 维 数 组 并 没有 行 、 
列 之 分 ， 所 以 也 就 不 存在 行 〈 列 ) 优先 之 说 。 实 际 上 ， 左 〈( 右 ) 下 标 优先 是 一 种 更 通用 的 观 
点 。 所 谓 “ 左 下 标 优先 ”就 是 指 将 数组 元 素 逐 一 映射 到 存储 区 时 ， 左 侧 下 标的 变化 速度 比 右 
侧 下 标的 变化 速度 快 。 例 如 ，A[1,1,1]、A[2,1,1]、A[3,1,1]、A[1,2,1]...…...。 实 际 上 ， 二 维 数 
组 的 列 优先 映射 就 是 一 种 左下 标 优 先 方案 。 同 样 ， 所 谓 “ 右 下 标 优先 ”就 是 指 将 数组 元 素 逐 
一 映射 到 存储 区 时 ， 右 侧 下 标的 变化 速度 比 左 侧 下 标的 变化 速度 快 。 二 维 数 组 的 行 优先 映射 
就 是 一 种 右 下 标 优先 方案 。 而 多 维 数 组 的 间接 向 量 映射 方案 与 二 维 数组 的 类 似 ， 只 是 其 间接 
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向 量 将 比 二 维 数组 多 得 多 。 

2. 数组 元 素 的 引用 

下 面 继续 讨论 如 何 将 源 程序 中 下 标 引 用 形式 翻译 成 该 元 素 的 逻辑 地 址 ， 或 者 说 相对 于 该 
数组 首 地 址 的 偏 移 量 。 这 个 计算 过 程 依赖 语言 所 选择 的 数组 映射 方案 ， 不 同 映射 方案 的 翻译 
方式 是 完全 不 同 的 。 本 书 以 最 常见 的 行 优先 映射 方式 为 例 ， 深 入 剖析 下 标 引 用 转换 成 逻辑 地 
址 的 过 程 。 

首先 讨论 最 简单 的 一 维 数组 的 情形 。 假 设 A 是 一 个 长 度 为 n 的 数组 ， 而 其 每 个 元 素 占 用 
的 存储 空间 为 w。 那 么 ，A 自 的 地 址 为 : 

BaseA+( 一 Jow1)xw 

其 中 ，BaseA 表 示 数 组 A 的 首 地 址 ，lowi 表 示 数 组 A 第 1 维 的 下 限 。 在 C 语 言 中 ， 规 定数 
组 维度 的 下 限 都 是 0， 所 以 不 必 考 虑 low1 的 取 值 。 而 Pascal 的 下 限 是 由 用 户 定义 的 ， 所 以 lowi 
的 取 值 是 不 可 以 忽略 的 。 读 者 只 需 通 过 简单 的 手工 演算 ， 不 难 发 现 这 个 地 址 公式 是 完全 可 行 
的 。 


下 面 再 来 看 看 二 维 数组 的 情形 。 假 设 A 是 一 个 2 行 5 列 的 二 维 数组 ， 各 维 的 下 限 都 是 
1， 其 形式 即 为 A[1..2，1..5]。 那 么 ，A[2，3] 元 素 的 地 址 是 多 少 呢 ?根据 行 优先 映射 的 特 
点 ， 不 难得 到 如 下 的 计算 过 程 : 

A[2，3] 的 地 址 =BaseA+(2-lowi)x(high2 一 low2+1)xw+(3-low2)xw 

=Basea+(2—1)x(5—1+1)xw+(3—1)xw 
=BaseA+SxXw+2xw=BaseA+7xXw 

其 中 ，highs 为 第 2 维 的 上 限 。 可 以 将 整个 计算 过 程 分 为 三 步 : 

1) 求 元 素 所 在 行 的 首 地 址 。 换 句 话 说， 就 是 求 所 在 行 第 1 列 元 素 之 前 的 所 有 元 素 的 个 
数 N。 假 设 当 前 行 之 前 的 行 数 为 L， 而 该 二 维 数组 的 列 数 为 C。 显 然 ， 不 难得 到 如 下 等 式 : 

N=LxC 

其 中 ， 工 可 以 用 《当前 行 号 -lowi) 表示 ， 而 C 则 可 以 用 (high2-low2+1〉 表 示 。 这 样 ， 在 考 
虑 元 素 占用 存储 空间 w 的 情况 下 ， 就 不 难得 到 计算 式 中 的 第 2 项 。 

2) 求 元 素 相 对 于 所 在 行 首 地 址 的 偏 移 。 这 个 过 程 与 一 维 数组 元 素 的 计算 相同 ， 并 不 难 
求 得 。 同 样 ， 就 可 以 轻松 得 到 计算 式 中 的 第 3 项 。 

3) 将 两 者 相 加 就 是 元 素 相 对 于 数组 首 地 址 的 偏 移 。 

至 此 ， 就 可 以 得 到 如 下 的 计算 公式 《其 中 ，lenz=high?-low2+1 ): 
Af[ci，c?] 的 地 址 =BaseA+(ci-lowi)xlenzxw+(c2z-low2)xw 
假设 各 维 下 限 都 为 0 时 ， 可 以 将 该 公式 简化 为 ; 
A[c1，c2] 的 地 址 =Basea+(c1xlen2+c2)xw 

这 两 个 公式 应 该 并 不 难 理解 ， 但 是 编译 器 设计 者 却 不 满足 于 此 。 这 里 ， 考 虑 更 一 般 的 情 
况 ， 那 就 是 cl 、c? 都 是 未 知 的 变量 ， 而 不 是 常量 。 不 难 发 现 ， 由 于 存在 变量 ， 整 个 公式 的 计 
过 程 都 将 依赖 于 目标 代码 完成 ， 甚 至 len; 的 计算 也 可 能 由 目标 程序 完成 ， 这 并 不 是 预期 的 
结果 。 事 实 上 ， 由 于 数组 的 上 、 下 限 都 是 已 知 的 ， 所 以 lenz 的 计算 是 完全 可 以 在 编译 阶段 完 
成 的 。 换 句 话说 ， 若 希望 得 到 更 精简 的 目标 代码 ， 就 需要 在 计算 的 过 程 中 尽 可 能 将 已 知 的 常 
量 折 辣 。 确 实 ， 表面 上 看 ， 公 式 本 身 并 没有 提供 太 多 常量 折合 的 机 会 。 不 过 ， 可 以 做 如 下 公 


Ee 


可 
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A[lc1，c2] 的 地 址 =BaseA+(c1-low1)xlensxw+(c2-low2)xw 
=BaseA-(low1xlen2?+low2)xwW+(c1xlen2+cz)xw 

读者 可 能 会 对 公式 变换 的 意义 有 所 疑惑 。 事 实 上 ， 公 式 变换 的 目的 就 是 为 常量 折 县 创造 
机 会 。 不 难 发 现 ， 将 变量 cl 、c> 集 中 到 了 公式 的 第 3 项 中 ， 而 将 可 能 的 常量 集中 提取 到 了 第 
2 项 中 。 如 果 数 组 上 、 下 限 已 知 ， 那 么 ， 第 2 项 的 值 是 可 以 在 编译 过 程 中 计算 得 到 的 。 虽 然 
这 样 的 变换 可 能 会 使 公式 的 含义 并 不 那么 明晰 ， 但 是 ， 它 对 生成 精简 的 目标 代码 是 有 现实 意 
义 的 。 公 式 变换 的 思想 并 不 是 由 笔者 提出 的 ， 在 经 典 编译 技术 中 ， 对 此 早 有 详细 记载 。 许 多 
书 中 将 第 1 项 、 第 2 项 合 称 为 公式 的 “不 变 部 分 ” 而 将 第 3 项 称 为 公式 的 “可 变 部 分 ”。 借 
助 公式 变换 来 实现 常量 折 苔 的 思想 印证 了 笔者 先前 提 到 的 一 个 观点 ， 即 在 最 有 利于 解决 某 一 
问题 的 时 刻 处 理 该 问题 是 最 优 的 选择 ， 不 要 拘泥 于 功能 模块 的 划分 。 从 理论 上 来 说 ， 完 全 本 
以 按照 原始 的 公式 生成 复杂 的 蕊 序列 ， 而 将 精简 优化 的 问题 交 由 芯 优 化 模块 来 处 理 。 不 过 ， 
届时 所 需 付出 的 努力 将 是 巨大 的 ， 而 优化 却 未 必 能 达到 预期 的 效果 。 

最 后 ， 将 二 维 数 组 的 地 址 计算 公式 推广 到 多 维 数 组 中 。 根 据 多 维 数 组 的 特性 ， 可 以 得 至 
如 下 的 计算 公式 (其 中 ，pi=ci-lowi): 

A[ci,c2...cn] 的 地 址 =Basea+((...(((p1Xxlen2+p2)xlen3)+p3)...)Xxlennt+pn)Xxw 

=BaseA-((...((low1lxlen?+low?)xlen3+low3)...)xlenn+lown)xw 
+((...((cl1xlen?+c?)xlen3+c3)...)xlenn+Tcn)xw 

这 里 ， 笔 者 就 不 再 详细 解释 此 公式 的 推导 过 程 ， 有 兴趣 的 读者 可 以 借助 实例 验证 其 正确 
性 。 这 个 具有 一 般 意义 的 数组 元 素 地 址 计算 公式 是 基于 如 下 两 个 基本 条 件 讨论 的 : 

(1) 数组 的 映射 方式 是 右 下 标 优先 。 

(2) 在 编译 过 程 中 ， 数 组 各 维度 的 上 、 下 限 是 已 知 的 。 注 意 ， 如 果 上 、 下 限 是 未 知 的 ， 
那么 ， 试 图 通过 公式 变换 来 实现 常量 折 靶 是 没有 任何 意义 的 。 关 于 上 、 下 限 未 知 数组 的 相关 
问题 ， 将 稍 后 讨论 。 

3. 越界 访问 的 检测 

所 谓 “ 越 界 访问 ”就 是 指引 用 了 数组 预定 义 界外 的 元 素 ， 这 种 异常 的 访问 会 给 程序 带 来 
不 可 预知 的 后 果 ， 甚 至 会 导致 整个 程序 骨 尝 。 不 过 ， 不 同 语言 对 越界 访问 的 检测 力度 是 不 同 
的 。 有 些 语言 进行 静态 检测 ， 即 在 编译 过 程 中 ， 判 定 访问 是 否 越界 。 有 些 语言 则 进行 动态 检 
测 ， 即 在 目标 程序 执行 过 程 中 ， 判 定 访问 是 否 越界 。 然 而 ， 也 有 些 语 言 不 进行 越界 检测 。 其 
中 ，C 语言 对 数组 访问 既 不 做 静态 越界 检测 ， 也 不 做 动态 越界 检测 。 

静态 越界 检测 的 实现 比较 容易 ， 只 需 根据 符号 表 的 相关 信息 ， 判 断 下 标 是 否 越界 即 可 。 
不 过 ， 在 实际 编译 器 设计 中 ， 静 态 越界 检测 的 功效 并 不 显著 。 这 是 因为 数组 访问 的 下 标 通 常 
是 一 个 变量 ， 而 不 是 常量 。 下 标的 值 是 依赖 实际 运行 环境 的 。 在 这 种 情况 下 ， 静 态 越界 检测 
就 完全 失效 了 。 

动态 越界 检测 的 实现 稍 复 杂 ， 大 致 的 思想 就 是 在 目标 代码 的 适当 位 置 插入 越界 检测 的 程 
序 段 ， 并 且 在 每 次 数组 访问 的 代码 之 前 ， 调 用 越界 检测 子 程序 。 如 果 检 测 发 现 异 常 访问 ， 则 
中 断 程 序 执行 ， 并 给 出 相应 的 出 错 提示 。 通 常 ， 动 态 越界 检测 程序 段 必 须 依赖 数组 的 内 情 向 
量 〈 就 是 用 于 描述 数组 信息 的 数据 结构 ) 完成 检测 ， 因 此 ， 编 译 器 需要 将 内 情 向 量 以 适当 的 
形式 置 入 目标 程序 中 。 
虽然 动态 越界 检测 可 以 很 大 程度 上 保证 数组 访问 的 安全 性 ， 
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间 。 其 中 的 利 次 是 值得 语 


酌 的 。 在 Pascal 语言 9 
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4. 动态 数组 的 实现 


所 谓 “动态 数组 ”就 是 指数 组 的 上 、 下 限 在 编译 阶段 是 不 能 而 
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映射 的 动态 数组 ， 当 试图 
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度 及 上 、 下 限 信息 。 在 静态 数组 中 ， 如 果 不 考虑 动态 越界 检测 ， 编 译 器 不 
中 即 可 。 而 动态 数组 则 不 然 。 假 设 A 
计算 A[2，3] 的 首 地 址 时 ， 编 译 器 则 必须 按照 先前 的 计 
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结构 ， 其 中 包含 了 数组 的 维 


一 定 会 将 数组 的 内 
是 一 个 行 
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目标 程序 根 和 
存储 的 才 是 数组 的 实际 数据 。 这 个 过 程 
得 任何 有 关 该 存储 区 的 线索 的 。 因 


;去 直 但 


外 实际 的 需要 调 
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操作 系统 接口 申请 获得 的 动态 


全 


目标 程序 与 操作 系统 之 间 协 调 


此 ， 编 译 器 只 能 静态 分 配 一 个 


尼 肝 


存储 空间 用 于 存放 该 区 域 的 首 地 址 ， 以 便 通 过 间接 寻 址 方式 访问 数组 元 素 。 实 际 上 ， 首 地 址 
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j 与 C、Pascal 语言 中 的 指针 是 非常 类 似 的 。 
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然 ， 除 了 内 情 据 


及 首 地 址 信息 之 外 ， 为 了 便于 编译 器 4 


据 结构 中 还 可 能 包含 一 些 辅助 信 
最 后 ， 简 单 谈 谈 动 态 数组 存储 
个 问题 : 
(1) 存储 
只 有 
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区 管理 。 其 存储 布局 如 


息 ， 不 再 闭 述 。 


名 


成 更 为 精简 的 目标 代码 ， 这 


6-11 所 示 。 笔 者 主要 想 讨论 以 


区 的 空间 大 小 。 一 般 来 说 ， 它 是 根据 用 户 设置 的 数组 上 、 下 限 而 定 的 。 理 论 上 
显 式 设置 了 动态 数组 的 上 、 下 限 后 ， 用 户 才 可 以 访问 数组 的 元 素 。 不 过 ， 并 非 所 有 
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语言 都 明确 规定 用 户 必 须 显 式 设 置 动态 数组 的 各 维 上 、 下 限 ， 很 多 语言 都 提供 了 默认 的 上 、 
下 限 值 。 例 如 ，STL 的 vector 就 允许 用 户 不 显 式 设 置 上 限 ， 而 使 用 默认 值 。 那 么 ， 这 个 默认 


值 的 大 小 是 多 少 较为 适合 呢 ? 这 是 需要 设计 者 项 酌 的 。 


内 情 向 量 。” 首 地 址 


图 6-11 动态 数组 的 存储 布局 
(2) 存储 空间 的 扩展 与 回收 。 设 置 动态 数组 的 目的 就 是 便于 用 户 动态 改变 数组 的 上 、 下 


限 ， 因 此 ， 存 储 空间 的 扩展 与 回收 是 非常 重要 的 。 当 然 ， 重 设 存储 空间 的 大 小 是 必要 的 ， 却 
并 不 仅 限 于 此 。 一 般 来 说 ， 用 户 改变 数组 上 、 下 限时 ， 并 不 希望 现存 的 数据 丢失 。 由 于 数组 


形态 发 生 了 变化 ， 现 存 的 数据 元 素 的 映射 
组 的 物理 存储 布局 ， 因 此 ， 这 项 工作 对 于 用 户 来 说 是 完全 透明 的 。 尤 其 对 于 支持 异形 数组 的 
言 ， 这 方面 的 设计 显得 极其 重要 。 另 外 ， 为 了 便于 用 户 使 用 ， 有 些 语言 将 动态 数组 扩展 、 
收 等 交 由 编译 器 处 理 或 者 封装 成 库 的 形式 。 例 如 ， 当 用 户 向 vector 对 象 添加 元 素 时 ， 是 否 


语 


回 


Y 置 也 必须 随即 改变 。 用 户 不 可 能 也 没 必要 了 解数 


关注 过 vector 对 象 的 容量 呢 ? 实际 上 ，STL 为 此 做 了 许多 幕后 工作 ， 当 用 户 调用 push_back 
方法 向 一 个 vector 对 象 添 加 元 素 时 ， 许 多 辅助 的 程序 片段 将 被 执行 ， 以 便 在 数据 溢出 时 自动 
扩展 vector 对 象 的 动态 存储 区 。 至 于 一 次 扩展 空间 的 大 小 是 非常 有 讲究 的 ， 不 同 的 编译 器 对 
此 的 理解 不 同 。 这 个 数字 过 大 可 能 会 导致 存储 空间 的 浪费 ， 过 小 可 能 会 使 扩展 操作 频繁 执行 
导致 效率 降低 。 


6.5.6 ”数组 元 素 操 作 数 的 翻译 


简 言 之 ， 数 组 元 素 操 作 数 的 翻译 就 是 按照 地 址 计算 公式 将 下 标 引 用 形式 转换 为 逻辑 地 址 


形式 。 在 正式 分 析 源 码 之 前 ， 先 来 看 一 个 实例 。 


列 ， 
列 


例 6-3 ”根据 输入 源 程序 生成 相应 的 耻 序列。 
输入 源 程序 如 下 : 


program aa(input, output); 

var a: array[1..10, 1..5] of integer; 
1, J: integer; 

begin 
al j]:=1; 

end. 


在 表 6-7 中 ， 列 出 了 两 个 完整 的 IR 序列 。 其 中 ， 左 列 是 不 经 过 任何 优化 的 IR 序 
它 就 是 由 语义 子 程序 直接 生成 的 ， 并 没有 作 任 何 加 工 。 而 右 列 是 经 过 优化 后 的 IR 序 
， 从 优化 效果 来 看 ， 主 要 是 简化 了 一 些 见 余 的 类 型 转换 IR。 虽 然 右 列 的 IR 比较 精简 ， 


sw 


旦 是 它 丝 毫 不 失 为 分 析 数 组 元 素 翻译 的 好 例子 。 下 面 将 基于 右 列 的 IR 作 相 关 讨论 。 计 算 


公式 如 下 : 
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表 6-7 数组 寻 址 的 实例 


优化 前 的 食 序 列 优化 后 的 下 序列 
0: (ByteToInt ,Ssnull, T1) 0: (MUL 4 ,L5, TO) 
1: (MUL 4 T_T1, TO0) 1: (ADD 4 ,J,_ TO0, T2) 
2: (ADD 4 ,J,_ TO0, T2) 2: (SUB 4 ,_T2,6, T3) 
3: (ByteToInt ,6,null, T4) 3: (MUL 4 ，T3,4，T5) 
4: (SUB 4 ,_T2, T4, T3) 4: (GETADDR ,Anull, T7) 
5: (ByteToInt ,4,null, T6) 5: (ADD 4 ,_T7, T5, T7) 
6: (MUL4 ,_T3, T6, T5) 6: (ASSIGN 4 ,lnull,@_T7) 
7: (GETADDR ,Asnull, T7) 
8: (ADD 4 ,_T7, T5, T7) 
9: (ByteToInt ,1,null, T8) 
10: (ASSIGN 4 ,_T8,null,@_T7) 
A[ci,c2...cn] 的 地 址 =Basea+((...(((piXlens+p2)xlen3)+p3)...)Xxlennt+pn)Xxw 
=BaseA-((...((low1lxlen?+low?)xlen3+low3)...)xlenn+lown)xw 
+((...((clxlen?+c?)xlen3+c3)...)xlenn+cn)xw 
第 0 行 :计算 cixlenz， 并 将 结果 送 入 _T0。ci 即 为 第 1 维 的 下 标 i， 而 len 即 为 第 2 维 的 
长 度 。 
第 1 行 : 计算 c?+_ T0， 并 将 结果 送 入 T2。 其 中 ，c2 即 为 第 2 维 的 下 标 j。 
第 2 行 : 计算 公式 中 第 3 项 与 公式 中 第 2 项 的 差 ， 将 结果 送 入 T3。 其 中 ， 第 2 项 常量 
的 值 即 为 6。 
第 3 行 : 将 T3xw， 并 将 结果 送 入 TS。 其 中 ，w 即 为 integer 类 型 数据 占用 的 空间 数 。 
第 4 行 : 获取 数组 A 的 首 地 址 ， 即 为 Bases， 将 结果 送 入 _T7。 
第 5 行 : 将 Ts 与 T7 相 加 ， 即 获得 了 ALj] 的 地 址 ， 将 计算 结果 送 回 _T7。 
第 6 行 : 通过 对 _T7 的 间接 寻 址 ， 将 常量 送 入 A[i,j] 中 。 
至 此 ， 通 过 一 个 实例 ， 读 者 应 该 已 经 了 解 了 数组 元 素 的 寻 址 问题 。 下 面 ， 就 来 看 看 数组 
元 素 操作 数 的 相关 文法 : 
【文法 6-5】 
因子 一 变量 053 
变量 1 一 [098 表达 式 列表 099 ]059 变量 1 
表达 式 列 表 一 表达 式 055 表达 式 列表 1 
表达 式 列表 1 一 ,表达 式 057 表达 式 列表 1 
5 
semantic055: 1. 对 当前 下 标 表达 式 进 行 有 效 性 检查 .。 
2. 根据 下 标 表 达 式 ， 生 成 民 。 若 存在 常量 折 受 的 条 件 ， 则 进行 常量 折 营 。 
semantic057: 1. 对 当前 下 标 表达 式 进 行 有 效 性 检查 .。 
2. 根据 下 标 表 达 式 ， 生 成 民 。 若 存在 常量 折 受 的 条 件 ， 则 进行 常量 折 营 。 
semantic059: 1. 有 效 性 检查 。 
2. 计算 公式 中 第 3 项 的 常量 。 
3. 根据 地 址 计算 公式 ， 生 成 IR。 
semantic098: 1. 设置 xpListFlag 标志 。 
semantic099: 1. 撤销 下 xpListFlag 标志 。 
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其 中 ， 数 组 下 标 表 达 式 的 有 效 性 检查 主要 包括 以 下 几 项 : 

(1) 根据 Pascal 语言 的 规定 ， 数 组 的 下 标 必须 为 整 型 表达 式 。 

(2) 越界 访问 检测 。Neo Pascal 只 进行 静态 检测 ， 不 进行 动态 检测 。 

(3) 下 标的 个 数 必须 与 数组 的 维 数 一 致 。 例 如 ， 试 图 用 “A[1]” 或 “A[1, 2, 3]” 的 方式 
引用 二 维 数 组 A 都 是 非法 的 。 
此 外 ， 由 于 “表达 式 列表 ”是 一 个 复 用 非 终结 符 ， 所 以 需要 semantic098、semantic099 
根据 实际 情况 设置 语义 处 理 标志 。 这 种 思想 在 处 理 “ 标 识 符 列表 ”相关 语义 时 ， 已 经 详细 解 


释 过 了 ， 读 者 应 该 并 不 陌生 。 
程序 6-13 semantic.cpp 
相关 文法 : 
表达 式 列 表 一 ”表达 式 055 表达 式 列表 1 
1 bool semantic055() 
2 
3 if (iExpListFlag.top()==1) 
4 { 
5 if (bConstFlag || Operand.empty() || CurrentVar.empty()) 
0 { 
多 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
8 return false; 
9 } 
10 OpInfo Tmp,Op1,0p2,TmpRslt; 
11 IRCode TmplIR; 
12 int iTypeLink; 
13 Var* TmpVar; 
14 Tmp=Operand.top(); 
15 Operand.pop(); 
16 TmpVar=&CurrentVar.top(); 
Um TmpVar->m iDim=1; 
18 iTypeLink=TmpVar->m VarTypeStack.topO.m iLink; 
19 if (Tmp.m iType==OpInfo::CONST) 
20 { 
21 if (CType::IsInt(CType::GetOpType(Tmp)) && 
22 SymbolTbl.TypeInfoTbl[iTypeLink].m _ ArrayInfo.at(0).m iStart 
23 <=SymbolTbl.ConstInfoTbl[Tmp.m iLink].m iVal KK 
24 SymbolTbl.TypeInfoTbl[iTypeLink].m ArrayInfo.at(0).m iEnd 
25 >=SymbolTbl.ConstInfoTbl[Tmp.m iLink].m iVal) 
26 { 
和 27 int i; 
28 if (SymbolTbl.TypeInfoTbl[iTypeLinkl.m ArrayInfo.size()>=2) 
29 { 
30 二 SymbolTbl.TypeInfoTbl[iTypeLink].m_ArrayInfo.at(1).m_iEnd; 
31 二 i-SymbolTbl.TypeInfoTbl[iTypeLink].m_ArrayInfo.at(1).m_iStart+1l; 
2 i=SymbolTbl.ConstInfoTbl[Tmp.m iLink].m iVal*i; 
B83 } 
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else 
二 SymbolTbl.ConstmfoTbl[Tmp.m_iLink].m_iVal; 
Op2.m iLink=SymbolTbl.RecConstTbl(itos(i),3); 
Op2.m iType=OpInfo::CONST,; 
if (TmpVar->m eOffsetType==OffsetType::ConstOffset || 
TmpVar->m eOffsetType==OffsetType:: VarOffset) 


一 一 


TmpVar->m OffsetVec.push_ back(OffsetStruct( 
TmpVar->m eOffsetType,TmpVar->m iOffsetLink)); 


Operand.push(Op2); 
} 
else 
{ 
EmitError(" 越 界 访问 或 数组 下 标 类 型 不 正确 ",TokenList.at(iListPos-1)); 
return false; 
} 
} 
else 
{ 
if (ICType::IsInt(CType::GetOpType(Tmp))) 
{ 
EmitError(" 数 组 下 标 类 型 不 正确 ",TokenList.at(iListPos-1)); 
return false; 
} 
if (SymbolTbl.TypeInfoTbl[iTypeLink|.m ArrayInfo.size()>=2) 
{ 
Op2.m iLink=SymbolTbl.RecConstTbl(itos(SymbolTbl.TypeInfoTbl[iTypeLink] 
.m_ ArrayInfo.at(1).m iEnd-SymbolTbl.TypeInfoTbl[iTypeLink|.m ArrayInfo.at(1) 
.m iStart+1),3); 
Op2.m iType=OpInfo::CONST,; 
TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top() 
,StoreType::T_INTEGER); 
TmpRslt.m iType=OpInfo::VAR; 
if (IlGenIR(Tmp,Op2,TmpRslt,BasicOpType::MUL)) 
return false; 
Tmp=TmpR slt; 
} 
if (TmpVar->m eOffsetType==OffsetType::ConstOffset || 
TmpVar->m eOffsetType==OffsetType::VarOffset) 
{ 
TmpVar->m OffsetVec.push back(OffsetStruct(TmpVar->m eOffsetType 
,TmpVar->m iOffsetLink)); 
} 
Operand.push(Tmp); 
} 
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当中 


80 return true; 

81 } 

82 if (iExpListFlag.top()==2) 
83 { 

84 iExpListNum.top(O++; 
85 } 

86 return true; 

87 } 


从 完整 的 文法 来 看 ， 不 久 


发 现 ，semantic055 的 另 一 个 功用 就 是 处 理 集合 变量 


列表 。 因 此 ， 借 助 于 证 xpListFlag 栈 传递 处 理 标志 ， 


告知 semantic055 所 需 完 成 的 语义 动作 。 


当 iExpListFlag 栈 顶 元 素 为 1 时 ， 表 示 “ 表 达 式 列表 ”是 由 
的 ， 此 时 ，semantic055 的 语义 动作 就 是 处 理 数 组 的 下 标 。 
semantic055 的 语义 动作 就 是 处 理 集合 变量 的 值 。 
其 中 ，Operand 栈 中 保存 的 是 下 标 表 达 式 的 结果 操作 数 ， 
的 是 数组 对 象 的 信息 。 另 外 ， 对 常量 符号 取 下 标 也 是 无 意义 的 。 


“因子 ”的 候选 式 推导 出 来 的 ， 那 么 ， 
第 $~9 行 : 语义 有 效 性 检查 。 
而 CurrentVar 栈 中 保存 


2 日 


人 否则， 表示 “表达 式 列 表 


的 表达 式 


“变量 1” 的 候选 式 推导 出 来 


古 昌 


第 14 行 : 获取 Operand 栈 顶 元 素 ， 该 元 素 即 为 当前 下 标 表 达 式 的 结果 操作 数 。 
第 16 行 : 获取 CurrentVar 栈 顶 元 素 ， 该 元 素 即 为 当前 操作 数 。 由 于 semantic055 处 理 的 
表达 式 必须 是 数组 第 1 维 的 下 标 ， 因 此 ， 当 前 操作 数 的 m_VarTypeStack 栈 顶 类 型 一 定 是 数 


组 。 与 C 语言 不 同 ， 
第 17 行 : 设置 m iDim 属 


性 。 


Pascal 严格 限制 下 标 运算 只 能 应 用 于 数组 。 
这 个 属性 主要 用 于 记录 当前 已 经 分 析 完 成 的 下 标 表 达 式 个 


数 。 根 据 地 址 计算 公式 ， 不 难 发 现 ， 其 中 leni; 的 取 值 完全 依赖 于 下 标 表 达 式 的 序号 。 因 此 ， 


将 下 标 表达 式 的 个 数 暂 存在 m_iDim 属 性 中 是 有 必要 的 。 


第 18 行 : 获取 当前 变量 的 类 型 信息 。 
第 19 行 : 判断 下 标 表 达 式 是 否 
所 以 


式 ， 


型 ; 


第 二 项 ， 下 标 是 否 越界 访问 。 由 于 下 标 表达 式 


为 常量 。 由 于 semantic055 仅 用 于 处 
只 需要 考虑 当前 下 标 表 达 式 是 否 为 常量 即 可 。 
第 21 一 25 行 : 下 标 表达 式 的 有 效 性 检查 ， 包 括 两 项 判断 : 


日 . 沿 ;: 且 . 


征 吊 旺 ， 


第 28 一 35 行 : 计算 偏 移 量 。 注 意 ， 
式 可 知 ， 
移 ， 因 

第 36、37 行 : 生成 常量 操作 数 。 


除 最 末 维 度 之 外 ， 都 需要 乘 以 下 一 维度 的 len。 
此 ， 只 需 判断 数组 维度 是 否 大 于 或 等 于 2 即 可 。 


所 以 可 以 进行 静态 越界 访问 检测 。 


里 第 1 维 的 下 标 表达 


第 一 项 ， 下 标的 类 型 是 否 为 整 


这 里 需要 考虑 当前 维度 是 否 为 最 末 的 维度 。 根 据 公 


于 semantic055 只 处 理 第 一 维 的 1 


时 


第 38 一 43 行 : 这 个 条 件 语句 是 非常 重要 的 。 先 前 所 讨论 的 情况 都 只 是 以 数组 首 地 址 为 


大和 口 


对 于 某 个 变量 符号 
于 该 记录 变量 的 


个 常量 偏 移 。 


第 44 行 : 将 常量 操作 数 压 入 Operand 栈 。 


因此 ， 如 果 当 前 符号 
个 和 暂 存 空间 中 。 在 计算 数组 首 地 址 时 ， 再 将 其 取出 。 


本 喘 存在 1 


基准 考虑 仿 移 的 ， 并 没有 涉及 数组 首 地 址 本 身 的 偏 移 。 换 名 话说 ， 数 组 的 首 地 址 也 可 能 是 相 
的 偏 移 。 例 如 ， 数 组 作为 记录 的 一 个 字段 ， 那 么 ， 数 组 的 首 地 址 就 是 相对 
局 移 时 ， 就 需要 将 其 保存 在 一 


第 34 一 79 行 : 处 理 下 标 表 达 式 不 是 常量 的 情况 。 
第 54 一 58 行 : 下 标 表 达 式 的 有 效 性 检查 。 由 于 表达 式 不 是 常量 ， 因 此 不 需要 考虑 静态 
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表达 式 语 义 


第 61 一 70 行 : 生成 了 用 于 计算 Cuxlen 的 值 。 
第 72 一 77 行 : 与 第 38 一 43 行 的 作用 相同 ， 暂 存 数组 本 身 的 1 
第 78 行 : 将 常量 操作 数 压 入 Operand 栈 。 


程序 6-14 semantic.cpp 


相关 文法 : 


表达 式 列表 1 一 ”, 表达 式 057 表达 式 列表 1 
bool semantic057() 


FE 
1 


if GExpListFlag.top()—1) 
{ 
if (bConstFlag || Operand.size()<2 || CurrentVar.empty()) 
{ 
EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
return false; 
} 
OpInfo Tmpl,Tmp2,Op1,Op2,TmpRslt; 
IRCode TmpIR; 
Var* TmpVar; 
Tmpl1=Operand.top(); 
Operand.popO; 
Tmp2=Operand.top(); 
Operand.popO); 
TmpVar=&CurrentVar.top(); 
int j=++TmpVar->m iDim; 


局 移 。 


第 6 这 


if (SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.topO.m _ iLink].m_ ArrayInfo.size()<j) 


{ 


EmitError(" 数 组 访问 维 数 大 于 声明 维 数 ",TokenList.at(iListPos-1)); 


return false; 


} 


if (Tmpl.m iType==OplInfo::CONST && Tmp2.m iType==OpInfo::CONST) 


{ 


if (CType::IsInt(CType::GetOpType(Tmp1)) && CType::IsInt(CType::GetOpType(Tmp2)) && 
SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.top().m iLink].m ArrayInfo.at 


Q-1).m iStart 
<=SymbolTbl.ConstInfoTbl[Tmpl.m iLinkl.m iVal && 


SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.topO).m iLink].m ArrayInfo.at 


Q-1).m iEnd 
>=SymbolTbl.ConstInfoTbl[Tmpl.m iLinkl.m iVal) 
{ 


int i; 


if (SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.top().m iLink] 


.m ArrayInfo.size(O>j) 


i=(SymbolTbl.ConstInfoTbl[Tmp2.m iLink].m iVal+SymbolTbl 


.ConstInfoTbl[Tmpl.m iLinkl.m iVaD)*(SymbolTbl.TypeInfoTbl[ 
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TmpVar->m VarTypeStack.topO.m iLink].m ArrayInfo.at(j).m iEnd 
-SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.top().m iLink] 
.m_ArrayInfo.at(j).m iStart+1); 

else 

i=(SymbolTbl.ConstInfoTbl[Tmp2.m iLinkl.m iValtSymbolTbl 

.ConstInfoTbl[Tmpl.m iLink].m iVa)); 

char cBuffer[10]; 

itoa(i,cBuffer,10); 

Op2.m iLink=SymbolTbl.RecConstTbl(cBuffer,3); 

Op2.m iType=OpInfo::CONST; 


Operand.push(Op2); 

} 

else 

{ 
EmitError(" 数 组 访问 越界 或 数组 下 标 类 型 不 正确 ",TokenList.at(iListPos-1)); 
return false; 

} 


if (I!CType::IsInt(CType::GetOpType(Tmp1)) || CType::IsInt(CType::GetOpType(Tmp2))) 
{ 

EmitError(" 数 组 下 标 类 型 不 正确 ",TokenList.at(iListPos-1)); 

return false; 


} 
TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolThl.ProcStack.top(),StoreType::T_INTEGER); 
TmpRslt.m iType=OpInfo::VAR; 
if (IlGenIR(Tmp1,Tmp2,TmpRslt,BasicOpType::ADD)) 
return false; 
Operand.push(TmpRslt); 
if (SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.topO.m iLink].m ArrayInfo.size()>)) 
{ 
Op2.m iLink=SymbolTbl.RecConstTbl(itos(SymbolTbl.TypeInfoTbl 
[TmpVar->m VarTypeStack.topO.m iLink].m ArrayInfo.at() 
.m iEnd-SymbolTbl.TypeInfoTbl[TmpVar->m VarTypeStack.top() 
.m iLink].m ArrayInfo.atQ).m iStart+1),3); 
Op2.m iType=OpInfo::CONST; 
Op1=Operand.top(); 
Operand.pop(); 
TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top() 
,StoreType::T_INTEGER); 
TmpRslt.m iType=OpInfo::VAR.; 
if (!GenIR(Op1,Op2,TmpRslt, BasicOpType::MUL)) 
return false; 
Operand.push( TmpRslt); 


88 if IExpListFlag.top()—2) 


90 让 xpListNum.top(O++; 


85 } 

86 return true; 
87 } 

89 { 

91 } 

92 return true; 

2 } 


表达 式 语义 


semantic057 的 功能 与 semantic055 是 基本 类 似 的 ， 不 过 ， 需 要 考虑 二 加 前 一 维 计算 得 到 


的 偏 移 量 。 同 样 ，semantic055 也 存在 复 用 
处 理 标志 ， 其 基本 思想 与 semantic055 


是 完全 一 致 的 。 


的 情况 ， 因 此 ， 也 需要 借助 于 下 xpListFlag 栈 传递 


第 5~9 行 ， 语 义 有 效 性 检查 。 注 意 ， 根 据 文法 ， 在 这 种 情况 下 ，Operand 栈 中 必须 至 少 
存在 两 个 操作 数 ， 即 前 一 维 计算 得 到 的 偏 移 量 及 当前 的 下 标 表达 式 。 否 则 ， 是 不 符合 语义 


的 。 而 CurrentVar 栈 中 保存 


的 是 数组 对 象 的 信息 。 当 然 ， 对 


第 13 行 : 获取 下 标 表 达 式 的 结果 操作 数 。 根 据 栈 的 性 质 ， 这 是 必然 的 。 
第 15 行 : 获取 前 一 维 计算 得 至 
第 17 行 : 获取 CurrentVar 栈 顶 元 素 
第 18 行 : 设置 m_iDim 属 
数 。 根 据 地 址 计算 公式 ， 不 难 发 现 ， 其 
此 ， 将 下 标 表达 式 的 个 数 暂 存在 m i 
第 19 一 23 行 : 判断 
semantic055 时 ， 并 不 需要 考虑 ， 这 是 


| 的 偏 移 量 操作 数 。 
， 该 元 素 即 为 当前 操作 数 。 


避 国 .Ai 品 I 


中 号 


。 这 个 属性 主要 用 于 记录 当前 


因为 数组 至 少 是 一 维 的 。 


取 下 标 也 是 无 意义 的 。 


己 经 分 析 完 成 的 下 标 表达 式 个 
中 len; 的 取 值 完全 是 依赖 于 下 标 表达 式 的 序号 。 因 
Dim 属 性 中 是 有 必要 的 。 
存在 维度 越界 的 情况 ， 即 访问 的 维度 大 于 声明 的 维度 。 在 处 理 


第 24 行 : 判断 是 否 满 足 常量 折 革 的 条 件 ， 即 前 一 维 计算 得 到 的 偏 移 与 当前 下 标 表达 


算 仿 移 。 


第 26 一 30 行 : 下 标 表达 式 的 有 效 性 检查 ， 包 括 两 项 判断 : 第 一 项 ， 下 标 


型 ， 第 二 项 ， 下 标 是 否 越界 访问 。 由 于 下 标 表 达 式 是 常量 ， 所 以 可 以 进行 静态 越界 访问 检测 。 


式 的 结果 都 是 常量 。 注 意 ， 仅 有 这 种 情况 才能 进行 常量 折 登 ， 否 


第 32 一 47 行 : 处 理 与 semantic055 类 似 ， 根 据 公 式 求 得 当前 维度 的 偏 移 
要 考虑 当前 维度 是 否 为 最 末 的 维度 。 根 据 公 式 可 知 ， 除 最 末 维 度 之 外 ， 都 需要 乘 以 下 一 维度 


的 len。 


则 ， 只 能 通过 生成 及 计 


的 类 型 是 否 为 整 


值 。 这 里 同样 需 


第 57 一 61 行 : 下 标 表 达 式 的 有 效 性 检查 。 由 于 表达 式 不 是 常量 ， 因 此 不 需要 考虑 静态 


越界 检查 。 


第 62 一 65 行 : 生成 前 


这 个 计算 结果 。 


第 66 行 : 将 计算 结果 操作 数 压 入 Operand 栈 。 


第 67 一 82 行 : 基本 思想 与 第 3$ 一 39 行 的 处 理 类 似 ， 只 不 过 这 


不 是 常量 偏 移 值 。 


至 此 ， 笔 者 详 


i 移 与 当前 下 标的 求 和 IR， 


并 申请 一 个 临时 变量 用 于 保存 


里 生成 的 是 IR 指令 ， 而 


分 析 了 semantic055、semantic057 的 主要 功能 及 实现 细节 。 最 后 ， 再 来 
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看 看 semantic059 的 基本 实现 。 与 先前 两 个 语义 子 程序 相 比 ，semantic059 稍 复杂 ， 它 是 数组 


元 素 寻 址 翻译 的 最 后 一 个 部 分 。 


程序 6-15 semantic.cpp 


相关 文法 : 
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变量 1 


一 [098 表达 式 列表 099 ] 059 变量 1 


bool semantic059() 


{ 


if (bConstFlag || Operand.empty() || CurrentVar.empty()) 
{ 
EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
return false; 
} 
Var TmpVar=CurrentVar.top(); 
CurrentVar.pop(); 
if (SymbolTbl.TypeInfoTbl[TmpVarm VarTypeStack.topO.m iLink].m ArayImfo.size0>ImpVarm iDim) 
{ 


EmitError(" 数 组 访问 维 数 小 于 声明 维 数 ",TokenList.at(iListPos-1)); 
return false; 


} 
int iArrayLowC=0; 
int i; 
for (i=0;i<SymbolTbl.TypeInfoTbl[TmpVarm VarTypeStack.topO.m iLink].m ArrayInfo.size();i++) 
{ 
iArrayLowC=iArrayLowC+SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.top().m iLink] 
.m ArrayInfo.at(D).m iStart; 
if(it+1<SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.topO.m iLink|.m ArrayInfo.size()) 
iArrayLowC=iArrayLowC*(SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.top() 
.m iLink|.m ArrayInfo.at(i+1).m iEnd-SymbolTbl.TypeInfoTbl[TmpVar 
.m VarTypeStack.topO.m iLink].m ArrayInfo.at(i+1).m iStart+1); 
} 
int iArrayType=SymbolTbl.CalcTypeSize(SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack 
.topO.m iLink].m iLink); 
OpInfo Tmp; 
if (Operand.topO).m iType==OpInfo::CONST) 
{ 
int j=(SymbolTbl.ConstInfoTbl[Operand.topO.m iLinkl.m iVal-iArrayLowC)*iArrayType; 
TmpVarm VarTypeStack.push(VarType(SymbolTbl.TypeInfoTbl[CType::GetRealType(SymbolTbl 
.TypeInfoTbl[TmpVar.m VarTypeStack.topO.m iLinkl.m iLink)].m eDataType,CType:: 
GetRealType(SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.topO.m iLink].m iLink))); 
TmpVar.m eOffsetType=OffsetType::ConstOffset; 
TmpVar.m iOffsetLink= SymbolTbl.RecConstTbl(itosQ),3); 
CurrentVar.push(TmpVar); 


Operand.pop(); 


else 


表达 式 语义 | 第 6 党 


41 { 

42 OpInfo TmpRslt,TmpOp1,TmpOp2; 

43 TmpOp2.m iType=OpInfo::CONST,; 

44 TmpOp2.m iLink=SymbolTbl.RecConstTbl(itosiArrayLowC),3); 

45 TmpRslt.m iType=OpInfo::VAR.; 

46 TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(),StoreType::T_INTEGER); 
47 TmpOp1=Operand.top(); 

48 if (I!lGenIR(TmpOp1,TmpOp2,TmpRslt,BasicOpType::SUB)) 

49 return false; 

50 TmpOp1=TmpRslt; 

31 TmpOp2.m iLink=SymbolTbl.RecConstTbl(itos(iArrayType),3); 

S22 TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.topO),StoreType::T_INTEGER); 
53 if (IGenIR(TmpOp1,TmpOp2,TmpRslt,BasicOpType::MUL)) 

54 return false; 

55 Operand.pop(); 

56 VarType tmp; 

3 intiTmpLink=TmpVar.m VarTypeStack.top(0.m_iLinks 

58 tmp.m StoreType=SymbolTbl.TypeInfoTbl[liTmpLink].m iLink==-1?SymbolTbl 

S59 .TypelInfoTbl[CType::GetRealType(iTmpLink)].m eDataType:SymbolTbl.TypeInfoTbl[ 
60 CType::GetRealType(SymbolTbl.TypeInfoTblfiTmpLink].m iLink)].m eDataType; 

01 tmp.m iLink=SymbolTbl.TypeInfoTbl[iTmpLink].m iLink—-1?iTmpLink: 

02 CType::GetRealType(SymbolTbl.TypeInfoTblfiTmpLink].m iLink); 

63 TmpVar.m VarTypeStack.push(tmp); 

64 TmpVar.m eOffsetType=OffsetType::VarOffset; 

65 TmpVar.m iOffsetLink=TmpRslt.m iLink; 

00 CurrentVar.push(TmpVar); 

67 3 

68 return true; 

69 } 


第 9. 行 : 语 


义 有 效 性 检查 。 当 然 ， 对 常量 符号 取 下 标 也 是 无 意义 的 。 


第 8 行 : 获取 CurrentVar 栈 顶 元 素 ， 该 元 素 即 为 当前 操作 数 。 
第 10~14 行 : 判断 访问 维度 与 数组 声明 维度 是 否 一 致 ，Pascal 语言 对 此 是 有 严格 要 求 的 。 
第 17 一 25 行 : 根据 公式 计算 其 中 的 不 变 部 分 ， 将 其 临时 保存 在 iArrayLowC 变量 中 。 


第 26 行 : 


由 类 型 系统 计算 得 到 每 个 数组 元 素 所 占用 的 空间 大 小 。 


第 31 一 39 行 : 处 理 偏 移 为 常量 的 情况 。 
第 32 一 34 行 : 更 新 当前 操作 数 的 类 型 ， 也 就 是 将 数组 元 素 的 类 型 压 入 m_VarTypeStack 


栈 。 注 意 ， 这 里 


EE 的 类 型 跟踪 是 非常 重要 的 ， 有 助 于 编译 器 及 时 了 解 当前 操作 数 的 实际 类 型 。 


第 35 一 36 行 : 更 新 当前 操作 数 的 偏 移 信息 。 这 里 ， 生 成 一 个 常量 符号 作为 偏 移 量 即 可 。 
第 42 一 66 行 : 处 理 偏 移 为 变量 的 情况 。 


第 42 一 49 行 : 根据 公式 生成 民 ， 计 算 偏 移 操作 数 与 iArrayLowC 的 差 值 。 


第 50 一 54 行 : 获取 数组 元 素 所 占用 空间 的 大 小 。 根 据 公 式 生 成 民 ， 计 算 最 终 的 实际 偏 


移 。 


关于 数组 元 素 操 作 数 的 语义 处 理 ， 和 暂且 讨论 至 此 。 
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6.5.7 ”指针 运算 的 翻译 


指针 一 度 被 誉 为 程序 设计 语言 的 精髓 所 在 。 
议 。 本 书 不 对 指针 机 制 本 身 作 过 多 的 记 
度 来 说 ， 指 针 却 是 一 个 非常 
得 丰富 多 彩 ， 


当然 ， 这 


用 运 入 


两 个 基本 运算 ， 当 然 ， 


与 普通 单 、 双 目 
标准 Pascal 关于 指针 及 其 


处 理 


只 允许 指向 运行 时 刻 用 户 程 序 动态 申请 
指针 的 灵活 性 
机 制 逐渐 成 为 了 一 个 标准 ， 
企 指 针 相 关 运 算 的 实现 之 前 ， 


牺牲 


. 左 值 与 右 值 


不 能 深刻 到 


些 专业 书籍 中 ， 


两 个 概念 ， 


实际 上 ， 通 俗 地 讲 ， 
的 值 。 而 右 


本 和 
材 关于 这 一 概念 的 症 述 却 非 党 


解 左 值 、 右 
左 值 、 
以 便 以 后 阅 


为 代价 


不 错 的 i 


可 能 是 


以 实现 难度 的 增 力 


F 价 ， 
吾 法 机 制 。 


因 


由 于 指针 的 存在 ， 


六 


设计 语言 及 编译 器 设计 中 ， 左 值 、 


Au 3 


的 ， 但 是 大 大 降低 了 实现 的 复杂 度 


为 这 是 非常 困难 的 。 
很 多 原先 看 似 平凡 的 问题 
[作为 代价 的 。 这 里 ， 主 要 关注 指针 的 一 
的 相关 语义 处 理 。 在 C 语言 中 ， 与 指针 相关 的 运算 主要 有 “*” 和 “&”， 
读者 可 能 还 会 想到 “++”“ 一 - 


运算 非常 类 似 ， 


”等 。 不过， 由 
因此 ， 没 有 必要 作 深 入 讨论 。 
运算 的 描述 比较 模糊 ， 


不 过 ， 学 术 界 对 于 指针 的 应 用 
然而 ， 从 编译 器 设计 的 角 


这 是 指 


于 其 他 运算 本 


的 空间 ， 而 不 外 


下 左 值 、 


罕见 


LL， 甚至 一 些 有 多 年 经 验 


值 的 概念 ， 


读 一 些 国 


因此 ， 


的 经 典 教材 。 


值 就 是 指 可 


轻 描 


帆 


淡 写 的 。 
已 ， 并 不 意 
\ 值 号 左边 ， 但 并 不 是 必须 出 现在 册 


在 早期 ， 左 值 、 右 值 的 


不 过 ， 二 


以 出 现在 内 


左 值 就 是 4 
起 


前 可 以 出 现在 赋值 


右 值 的 概念 。 


右 值 是 一 对 非常 重要 的 概念 。 
的 程序 员 对 这 个 概念 都 比较 模糊 。 
对 于 分 析 指 针 的 运算 是 非常 不 利 的 。 实 际 上 ， 在 国外 的 一 
右 值 是 出 现 频率 极 高 的 两 个 名 词 。 


直 存在 争 


变 
些 常 
针 


因此 ， 各 种 版 本 的 编译 器 对 此 的 理 
是 不 尽 相 同 的 。 早 期 的 Pascal 编译 器 并 不 支持 地 址 运算 〈“@”)， 在 这 种 情况 下 ， 


E 指 向 普通 的 变量 。 虽 然 这 种 处 理 
。 随 着 C 语言 的 风靡 ，C 的 指针 
许多 商用 Pascal 编译 器 都 竞相 效仿 ， 引入 了 “@” 运 算 符 。 在 正 
先 简单 解释 


不 过 ， 


是 以 


国内 的 教 


笔者 认为 有 必要 深入 了 解 这 


号 左边 的 值 ， 也 就 是 指 那些 可 以 被 修改 
号 右边 的 值 。 从 表面 上 来 看 ， 这 两 个 概念 的 描述 似乎 是 


内 含 却 并 不 简单 。 注 意 ， 左 值 、 右 值 是 讨论 表达 式 的 一 种 分 类 方法 而 


味 着 左 值 忆 


\ 定 是 出 现在 赋值 号 左边 的 。 先 前 ， 


区 


笔者 只 


武 值 号 左边 的 。 
既 念 的 提出 就 是 用 于 区 别 


个 值 是 


值 、 碳 
名 字 或 引 月 
子 ， 


可 以 改变 的 ， 而 右 值 是 不 能 
值 的 概念 已 经 失去 了 


改变 的 。 不 过 ， 


日 来 指定 的 对 象 。 除 了 左 值 之 外 ， 
见 表 6-8。 


表 


达 


其 


的 意义 


小 \ 


式 


这 种 观点 并 不 太 准 确 。 
。C++ 的 观点 认为 左 值 


是 强 


表 6-8 表达 式 左 值 


调 左 值 “可 以 ”出 现在 


时 


否 可 以 改变 。 通 常 ， 左 值 


人 


在 现代 C++ 语 言 
通常 是 指 可 以 通过 具体 的 
其 余 的 都 可 以 视 为 右 值 。 下 面 ， 先 来 看 几 个 例 


P, 左 


x=421 


*ptr ea 


23 


a+ 十 


b[0] = 


1000 


b[0] 


const intm = 1000 


m 


int& f0) 


人 0 的 返回 值 


能 是 非法 的 ， 但 


都 不 是 左 值 
必定 
用 ， 那 么 ， 
直接 访问 被 别名 的 对 象 ， 因 
理论 上 讲 ， 左 值 是 可 以 转换 为 右 值 的 ， 但 
右 值 对 于 编译 器 设计 又 有 什么 意义 呢 ? 在 程序 设计 语言 中 ， 左 值 
比较 显著 。 例 如 ，C 语言 规定 & 运 算 符 的 操 
ee ie 又 如 何 理解 左 值 


对 象 


值 、 


繁 的 ， 仅 以 指针 处 到 
那么 ， 
上 ， 在 所 有 


| 三 


这 里 简单 


(1) 


说 明 两 点 : 
const 限定 词 修饰 的 符号 


(2) 


仍然 可 以 视 为 左 值 。 在 这 种 情况 下 ， 试 图 修改 
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A 4 


符号 的 值 可 


并 不 影响 其 成 为 左 值 ， 


因为 它 是 可 以 通过 名 字 引 用 的 。 


返回 引用 的 函数 也 可 以 视 为 左 值 。 


。 其 实 这 是 很 好 理解 的 。 如 果 一 个 函 


事实 上 ， 除 了 返 
数 的 返回 值 是 一 


回 引用 之 外 ， 其 他 类 型 的 返回 值 
个 普 


普通 对 象 ， 那 么 这 个 普通 


的 ， 当 然 ， 也 不 可 能 通过 
就 没有 意义 了 ， 


是 临时 
它 的 返回 值 


为 例 ， 左 值 、 右 值 的 意义 前 


Ar 品 


楼 量 人 符 亏 中 ， 


上 后 . 太 夺 品 是 不 


量 符号 是 不 


只 有 一 类 变 和 


里 o 
题 就 


这 两 个 概念 比较 重要 ， 


读者 一 旦 体会 到 这 本 质 ， 


非常 


容易 了， 并 没有 太 多 的 理论 


个 显 式 的 名 字 来 访问 。 但 
因为 它 是 男 
此 ， 返 回 引用 就 是 左 值 。 

右 值 却 不 一 定 能 转换 为 左 值 。 那 么 ， 


确定 左 值 与 否 将 变 得 非常 
。 至 此 ， 笔 者 已 经 详细 阐述 了 左 值 与 


如 果 一 个 函数 返回 引 
通过 这 个 别名 ， 就 可 以 


一 个 名 字 的 别名 ， 


讨论 左 
、 碳 值 的 限定 是 非常 频 


了 
人 
N 


问题 呢 ? 实际 
能 作 左 值 的 ， 即 非 间接 寻 址 访问 的 临时 变 
容易 。 相 对 于 左 值 而 言 ， 右 值 的 问 
右 值 的 相关 话题 ， 


建议 读者 仔细 推 项 


2. 间接 访问 运算 


间接 访问 运算 是 一 种 基本 的 指针 


运算 。 在 Pascal 中 ， 


间接 访问 运算 符 ^ 通 过 指针 进行 间 


接 访问 ， 它 与 地 址 运算 符 @ 是 互 逆 的 。 如 果 x 是 一 个 变量 ， 那 么 ， 表 达 式 (@x)^ 与 x 是 相同 
的 。 间 接 访问 运算 规定 操作 数 必须 是 指针 ， 其 运算 结果 就 是 引用 这 个 指针 所 指向 的 对 象 。 间 
接 访 问 运算 的 结果 是 一 个 左 值 。 

当然 ， 0 程序 员 确 定 的 。 器 通常 不 会 静态 检测 指针 是 否 
空 指针 或 野 指 针 ， ee 员 负 责 的 。 实 际 上 ，Pascal 的 间 


接 访 问 运 算 应 月 


Neo Pascal 的 相关 实现 。 


【文法 6-6】 
因子 一 变量 053 
变量 一 ”标识 符 054 变量 1 
变量 1 一 ^058 交 量 1 


程序 6-16 semantic.cpp 


pe 


这 里 就 不 再 深入 讨论 了 。 下 面 就 来 看 


相关 文法 : 
表达 式 列 表 1 ”一 ,表达 式 057 表达 式 列表 1 
1 bool semantic058() 
2 
3 if (bConstFlag || CurrentVar.empty()) 
4 { 
5 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
6 return false; 
了 } 
8 Var TmpVar=CurrentVar.top(); 
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9 if (TmpVar.m VarTypeStack.empty() || TmpVar.m VarTypeStack.top().m_ StoreType!=StoreType:: 
10 T_POINTER) 
11 { 
12 EmitError("^ 运 算 符 只 能 运用 于 指针 类 型 ",TokenList.at(iListPos-1)); 
13 return false; 
14 } 
15 int iTypeLink=CType::GetRealType(SymbolTbl.TypeInfoTbl[TmpVar.m VarTypeStack.top() 
16 m iLink].m iLink); 
用? TmpVar.m VarTypeStack.pop(); 
18 TmpVar.m VarTypeStack.push(VarType(SymbolTbl.TypeInfoTbl[iTypeLink].m eDataType,iTypeLink)); 
19 semantic053(); 
20 OpInfo TmpOp=Operand .top(); 
21 Operand.pop(); 
2 if (TmpOp.m_bRef) 
23 { 
24 OpInfo TmpOp1,TmpRslt; 
25 TmpOpl.m iType=OpInfo::VAR; 
26 TmpOpl.m iLink=TmpOp.m iLink; 
27 TmpOpl.m bRef=true; 
28 TmpRslt.m iType=OpInfo::VAR; 
29 TmpRslt.m iLink=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(),StoreType::T_ POINTER); 
30 TmpRslt.m bRef=false; 
31 SymbolTbl.ProcInfoTblat(SymbolTbl.ProcStack.topO).m_Codes.push_back(EmitIR( 
2 OpType::ASSIGN 4,TmpOp1,TmpRslt)); 
33 TmpOp.m_bRe 人 false; 
34 TmpOp.m iLink=TmpRslt.m iLink; 
33 } 
36 TmpVar.m iVarLink=TmpOp.m iLink; 
37 TmpVarm _bRe 人 true; 
38 TmpVar.m eOffsetType=OffsetType::NoneOffset; 
389 TmpVar.m iOffsetLink=-1; 
40 CurrentVar.push(TmpVar); 
41 return true; 
2 } 


第 3~7 行 : 语义 有 效 性 检查 。 当 然 ， 对 常量 符号 取 下 标 也 是 无 意义 的 。 

第 8 行 : 获取 CurrentVar 栈 顶 元 素 ， 该 元 素 即 为 当前 操作 数 。 

第 9 一 13 行 : 间接 访问 运算 符 只 能 应 用 于 指针 类 型 变量 。 注 意 ， 间 接 访问 运算 并 没有 规 
定 其 操作 数 必须 为 左 值 ， 因 此 ， 不 需要 判断 当前 变量 是 否 为 左 值 。 

第 14 一 15 行 : 获取 当前 变量 的 类 型 链 的 指针 。 

第 16 行 : 将 当前 变量 的 m_VarTypeStack 栈 的 栈 顶 元 素 弹 出 ， 也 就 是 将 指针 类 型 的 描述 
信息 弹出 。 

第 17 行 : 将 指针 所 指向 的 基 类 型 压 入 当前 变量 的 m_VarTypeStack。 这 里 ， 值 得 注意 的 
是 类 型 的 变化 过 程 ， 一 次 间接 访问 会 将 当前 变量 类 型 由 原来 的 指针 类 型 转换 为 该 指针 的 基 类 
型 。 编 译 器 则 借助 于 m_VarTypeStack 栈 跟 踪 寻 址 过 程 中 的 类 型 的 变化 信息 。 


i 
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第 18 行 : 调用 semantic053 语义 子 程序 ， 分 析 当 前 变量 的 相关 语义 ， 这 是 一 个 非常 习 
的 结果 本 身 也 是 一 个 左 值 ， 因 此 ， 大 多 数 
等 形式 都 


的 语义 动作 
运算 都 可 以 
法 的 ， 这 与 
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。 在 Pascal 或 C 语言 中 ， 间 接 访 问 运 算 
基于 其 结果 进行 ， 当 然 ， 也 包括 许多 单 目 


运算 。 例 如 


C 语言 的 * 运 算是 类 似 的 。 以 a 人 ^ 向 为 例 ， 设 计 者 必须 


然 ，afj 订 是 相 


对 于 a 变量 首 地 址 的 偏 移 ， 而 a 人 ^ 自 是 相 


，a^[、a^.p 
- 


注意 


Lt 


a[j 与 a^ 四 的 差异 。 
对 于 指针 变量 a 所 指向 的 空间 


于 
且 女 


日. 公 
是 合 


显 


区 域 首 地 


址 的 偏 移 。 换 句 话说 ， 对 于 一 个 完整 的 操作 数 而 言 ， 间 接 访 问 运 算 符 前 后 两 部 分 并 没有 直接 


万 品 


Pn | 


的 联系 ， 只 


的 目的 就 是 用 了 
轧 。 然 后 ， 


关 信 


是 后 者 是 依赖 于 前 者 计算 得 到 的 符号 内 的 值 而 
分 析 间 接 访 运算 符 前 面部 分 信息 ， 即 存储 了 


一 太 舍 


这 些 信息 ( 主 符 


Lo 


递 。 而 间接 
数 的 间接 寻 


访问 运 


址 访问 ， 以 此 作为 后 续 分 析 的 基 址 。 


因 


号 、 偏 移 等 ) 传递 也 就 到 此 为 J 
符 之 后 部 分 的 相关 分 析 仅 仅 依赖 于 对 semantic053 函数 得 到 的 结果 操作 


此 ， 这 是 


有 调用 semantic053 
F CurrentVar 栈 中 的 当前 变量 的 相 
上 了 ， 并 不 需要 继续 向 后 传 


第 19 一 20 行 : 获取 semantic053 函数 所 生成 的 结果 操作 数 ， 将 其 赋 给 临时 对 象 TmpOp， 


第 21 一 34 行 : 如 果 TmpOp 为 间接 寻 址 操作 数 ， 则 需要 特殊 处 理 。 
的 基 址 ， 就 必须 对 TmpOp 进行 二 习 


下 ， 若 试 
址 。 不 过 ， 
访问 寻 址 并 
问 寻 址 转化 
时 ， 应 该 特 


图 


数 的 m_bRef 为 假 。 
第 35 一 40 行 : 设置 TmpVar 对 象 的 相关 属性 ， 并 将 其 压 入 CurrentVar 栈 。 值 得 兴 
必定 为 false， 无 论 原始 的 状况 是 true 还 是 false。 
成 一 行 赋值 及， 以 实现 一 次 间接 
址 的 过 程 。 然 而 ， 第 36 行 再 次 将 TmpVarm_bRef 设置 为 true 的 目的 是 为 了 表示 该 操作 数 


是 ， 实 际 上 
0 果 原 始 的 


汪 


间接 访问 


并 将 Operand 栈 项 元 素 〈 即 结果 操作 数 ) 弹出 。 


大 品 


获得 间接 访问 运算 符 后 部 符号 
绝 大 多 数目 标 机 只 支持 一 次 间接 寻 址 ， 因 此 ， 


4 旧 


会 


图 在 


试 


人 


一 个 操作 数 中 表示 二 习 


不 是 一 个 令 人 满意 的 解决 方案 。 这 里 ， 不 得 不 
为 两 次 间接 寻 址 的 形式 ， 通 常 ， 可 以 生成 赋值 


别 注意 各 操作 数 m_bRef 属性 的 设置 ， 即 源 操 


助 了 


二 
是 
遍 


， 此 时 的 Tmpvarm _bRef 属性 
TmpVar.m_bRef 为 真 ， 则 必须 


上 和 A 


吊 


扩 


21 一 34 行 和 


o 


3. 地 址 运算 


庆生 


地 址 运 外 


这 主要 是 因 

为 地 址 运算 
通常 ， 

须 是 左 值 。 


三 
里 


信 (a+b) 是 非法 表达 式 的 原因 


指针 。 实 际 
讨论 了 。 下 


【文法 6- 


日 


是 一 种 基本 的 指针 运 


算 。 实 际 上 ， 标 准 Pascal 并 没 


IR 完成 这 一 功能 。 
乍 数 的 m_bRef 为 真 ， 而 目标 操作 


个 临时 指引 


实际 上 ， 在 这 种 情况 
间接 访问 寻 


E 


间接 


| 将 二 重 间 接 访 
在 生成 赋值 及 


FE 意 的 


人 


有 对 其 作 非 常 明确 芭 


存储 空间 ， 而 不 能 是 用 广 


为 早期 的 Pascal 语言 只 允许 指针 指向 用 户 动 态 申 请 的 
。 不 过 ， 鉴 于 C 及 一 些 商 
符 ， 这 主要 源 于 Turbo Pascal 及 Delphi 的 设计 。 
地 址 运算 的 安全 性 是 由 编 
也 就 是 说 ， 只 有 左 值 表达 式 才 可 以 进行 取 地 址 。 实 际 
就 是 (atb) 不 是 左 值 。 而 地 址 运算 的 结 


府 


] Pascal 编译 器 的 设计 ， 笔 者 最 终 采 用 了 “@” 符 


» 


这 并 不 难 到 
和 企 数 就 是 


下 


上 3 
果 操 


上 ，Pascal 的 地 址 运算 应 用 与 C 语言 的 & 运 算 符 是 极 
面 就 来 看 看 Neo Pascal 的 相关 实现 。 


己 


7】 
子 


一 @ 变量 053 060 


~ 


译 器 保证 的 。 当 然 ， 它 的 前 提 就 是 地 址 运算 的 操作 数 必 
> E 解 。 例 如 ， 
一 个 地 址 或 者 
相似 的 ， 这 里 就 不 再 深入 


[ 避 8S i 
四 、 编译 器 设计 之 路 
[ 


程序 6-17 semantic.cpp 


相关 文法 : 
因子 一 @ 变量 053 060 
1 bool semantic060() 
2 {1 
3 OpInfo Tmp,Op1,Rslt; 
4 if (Operand.empty()) 
3 { 
6 EmitError(" 语 义 错误 ",TokenList.at(iListPos-1)); 
7 return false; 
8 } 
9 Tmp=Operand.top(); 
10 Operand.pop(); 
11 if (Tmp.m iType==OpInfo::CONST | 
12 (Tmpm iType—OpInfo::VAR && SymbolTIblIsImpVvar(Tmpm iLink) && Tmp.m bRef——false)) 
13 { 
14 EmitError(" 地 址 运算 的 操作 数 必须 为 左 值 ",TokenList.at(iListPos-1)); 
15 return false; 
16 } 
Um TypeInfo TmpType; 
18 if (Tmp.m iType==OpInfo::PROC) 
19 { 
20 if (SymbolTbl.ProcInfoTbl.at(Tmp.m iLink).m eType==ProcInfo::Function) 
2 TmpType.m eDataType=StoreType::T_FUNC; 
2 else 
23 TmpType.m eDatalype=StoreType::T PROC; 
24 TmpType.m iLink=Tmp.m iLink; 
25 SymbolTbl.AddType(TmpType); 
26 Rslt.m iDetailIype=Tmp.m iDetailType; 
2 Rslt.m iDetailType.push(VarType(TmpType.m eDataType,SymbolTbl.TypeInfoThl.size()-1)); 
28 int i=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(),StoreType::T_ POINTER); 
2 SymbolTbl.VarInfoTbl[i].m iTypeLink=SymbolTbl.TypeInfoTbl.size()-1; 
30 Rslt.m iType=OpInfo::VAR:; 
31 Rslt.m iLink=SymbolTbl.VarInfoTbl.size()-1; 
3 Rslt.m _ bRef=false; 
33 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back(EmitIR( 
34 OpType::GETPROCADDR,OPp1,Rslt)); 
3S Operand.push(Rslt); 
36 return true; 
3 } 
38 Rslt=Tmp; 
39 TmpType.m eDataType=StoreType::T_POINTER; 
40 if (Tmp.m iDetailType.empty()) 
41 { 
42 Rslt.m iDetailType.push(VarType(SymbolTbl.TypeInfoTbl[SymbolTbl.VarInfoTbl[Rslt.m iLink] 
43 .m_iTypeLink].m eDataType,SymbolTbl.VarInfoTbl[Rslt.m iLinkl.m iTypeLink)); 
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44 TmpType.m eBaselype=SymbolTbl.TypeInfoTbl[SymbolTbl.VarInfoTbl[Rslt.m iLink].m iTypeLink] 
45 .m eDatalype; 

46 TmpType.m iLink=SymbolTbl.VarInfoTbl[Rslt.m iLink].m iTypeLink; 

47 } 

48 else 

49 { 

50 Tmplype.m eBaseType=SymbolTbl.TypeInfoTbl[Rslt.m iDetailType.topO.m iLink].m eDataType; 
51 TmpType.m iLink=Rslt.m iDetailType.topO.m iLink; 

S52 } 

53 TmpType.m szName=" noname"; 

54 TmpType.m_ szName.append(GetSerialld()); 

55 SymbolTbl.AddType(TmpType); 

56 Rslt.m iDetailType.push(VarType(StoreType::T_POINTER,SymbolTbl.TypeInfoTbl.size()-1)); 
57 Rslt.m bRef=false; 

58 Rslt.m iType=OpInfo::VAR; 

59 if(!Tmp.m bRef) 

60 { 

01 Opl=Tmp; 

02 int i=SymbolTbl.GetTmpVar(SymbolTbl.ProcStack.top(),StoreType::T_ POINTERJ); 

03 SymbolTbl.VarInfoTbl[i].m iTypeLink=SymbolTbl.TypeInfoTbl.size()-1; 

64 Rslt.m iLink=SymbolTbl.VarInfoTbl.size()-1; 

65 if (SymbolTbl.IsVarPara(SymbolTbl.VarInfoTbl[Opl.m iLink].m szName,SymbolTbl 

00 .VarInfoTbl[Op1.m_iLink].m_iProcIndex)) 

67 { 

68 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m_ Codes.push back(EmitIR( 
69 OpType::ASSIGN 4,Op1,Rslt)); 

70 } 

71 else 

虽 { 

73 SymbolTbl.ProcInfoTbl.at(SymbolTbl.ProcStack.top()).m Codes.push back(EmitIR( 
74 OpType::GETADDR,Op1,Rslt)); 

3 } 

76 } 

7 Operand.push(Rslt); 

78 return true; 

79 } 


第 4~8 行 : Operand 栈 的 有 效 性 检查 。 
第 9 一 10 行 : 将 Operand 栈 顶 元 素 由 给 Tmp， 并 将 其 弹出 。 
第 11 一 16 行 : 左 值 判断 。 在 C、Pascal 中 ， 地 址 运算 的 操作 数 必 须 是 左 值 表达 式 。 关 于 
左 值 的 判断 条 件 ， 笔 者 先前 已 作 了 说 明 。 
第 18 一 37 行 : 处 理 对 过 程 取 地 址 的 运算 。 这 里 必须 生成 一 个 指向 该 过 程 的 指针 变量 ， 
生成 相关 的 及， 用 于 对 过 程 取 地 址 。 
第 38 一 $8 行 : 实际 上 ， 除 了 过 程 取 地 址 之 外 ， 只 可 能 存在 变量 取 地 址 的 情况 ， 因 此 3 
不 需要 进行 额外 的 判断 。 对 于 变量 取 地 址 的 情况 ， 主 要 的 处 理 有 两 部 分 : 


i 


中 


A 
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(1) 变量 的 原 类 型 的 变换 。 即 在 原 类 型 链 的 链 首 增加 一 个 指针 结 点 ， 用 于 表示 地 址 运算 
结果 操作 数 的 类 型 是 一 个 指向 原 类 型 的 指针 。 

(2) 根据 实际 情况 ， 生 成 地 址 运算 的 I 人 R。 

其 中 ， 第 一 部 分 主要 是 由 第 38 一 8 行 完 成 的 。 同 时 ， 这 里 还 需要 考虑 m_iDetailType 栈 
为 空 的 情况 。 当 然 ， 类 型 的 变化 过 程 也 需要 在 m_iDetailType 栈 中 予以 体现 。 

第 $9 一 76 行 : 处 理 非 间 接 寻 址 的 情况 。 对 于 非 间接 寻 址 的 操作 数 则 需要 生成 地 址 运算 
的 琢 。 注 意 ， 变 参 的 情况 是 需要 特殊 处 理 的 。 虽 然 变 参 并 不 是 指针 ， 但 是 变 参 空间 内 存储 的 
却 是 实 参 的 地 址 。 因 此 ， 在 处 理 变 参 地 址 运算 时 ， 只 需要 生成 赋值 豚 《ASSIGN ) 即 可 。 然 
而 ， 除 了 变 参 之 外 ， 其 他 的 情况 都 是 需要 生成 取 地 址 下 〈GETADDR) 的 。 当 然 ， 值 得 注意 
的 是 ， 对 于 间接 寻 址 的 情况 ， 由 于 操作 数 存储 的 就 是 目标 对 象 的 地 址 ， 因 此 ， 只 需 将 操作 数 
的 m_bRef 设置 false 即 可 〈 即 表示 非 间 接 寻 址 )。 

第 77 行 : 将 Rslt 操作 数 压 入 Operand 栈 。 

至 此 ， 关 于 指针 运算 的 相关 语义 处 理 已 基本 讨论 完了 。 处 理 指针 运算 的 关键 就 是 理解 左 
值 、 右 值 的 概念 ， 因 为 并 不 是 任何 操作 数 都 是 满足 运算 需求 的 。 


| 6.6 深入 学 习 


类 型 理论 是 一 个 非常 复杂 的 话题 ， 它 也 一 直 是 计算 机 科学 理论 的 重要 研究 领域 。 类 型 对 
于 程序 设计 语言 、 编 译 技术 的 研究 是 至 关 重 要 的 。 这 里 ， 笔 者 推荐 几 本 类 型 理论 相关 的 经 典 


著作 ， 供 学 有 余力 的 读者 参考 使 用 。 

1、 Advanced Topics in Types and Programming Language Benjamin C. Pierce MIT Press 

说 明 : 这 是 类 型 理论 方面 的 经 典 著作 ， 不 过 ， 由 于 难度 极 高 ， 不 适合 初学 者 使 用 。 

2、Type Theory and Functional Programming Simon Thompson 

说 明 : 书 中 提 到 了 类 型 理论 与 函数 式 语言 的 相关 话题 ， 学 习 难 度 较 大 。 

3、 程 序 设 计 语 言 理 论 基础 John C. Mitchell 电子 工业 出 版 社 
说 明 : 这 本 书 是 程序 设计 语言 领域 的 著作 ， 适 合 初学 者 阅读 。 

4、 程 序 设 计 语言 的 形式 语义 Glynn Winskel 机 械 工 业 出 版 社 
说 明 : 这 本 书 是 国内 外 许多 高 校 形 式 语义 学 的 教材 。 

5、 计 算 机 语言 的 形式 语义 陆 汝 铃 科学 出 版 社 

说 明 : 陆 汝 铃 院 士 是 国内 形式 语义 领域 的 权威 ， 该 书 完整 地 阐述 了 形式 语义 相关 理论 与 概念 ， 是 不 可 多 得 的 经 典 著作 。 


6.7 ”实践 与 思 


1. 与 C 语言 不 同 ，Pascal 语言 并 不 允许 数组 与 指针 之 间 进 行 类 型 转换 ， 试 问 如 何 修 改 
与 完善 Neo Pascal， 使 之 可 以 支持 数组 与 指针 之 间 的 类 型 转换 ? 

2. 请 结合 C++ 的 set 模板 ， 完 善 Neo Pascal 的 集合 类 型 。 

3. Neo Pascal 的 类 型 转换 类 型 并 不 完整 ， 请 读者 根据 实际 需要 予以 补充 。 

4. 试 评价 Neo Pascal 类 型 系统 的 不 足 之 处 。 

5. 与 C 语言 不 同 ，Pascal 语言 并 不 支持 逻辑 表达 式 的 短路 ， 试 问 如 何 修改 与 完善 ， 使 
之 可 以 支持 逻辑 表达 式 的 短路 ? 
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| 6.8 ”大师 风 采 一 一 Alan Kay 


Alan Curtis Kay: 美国 计算 机 科学 家 ， 面 向 对 象 程序 设计 思想 的 提出 者 ，Smalltalk 创始 
人 之 一 。1940 年 5 月 17 日 出 生 于 美国 。1966 年 ， 获 得 犹他 州立 大 学 工程 学 院 硕士 及 博士 学 
位 。 在 此 期 间 ， 他 与 Internet 先驱 Ivan Sutherland 一 起 工作 。 

1970 年 ，Kay 加 入 了 Xerox 公司 的 Palo Alto 研究 中 心 ， 从 事 网 络 工作 站 原型 的 研究 与 
开发 。 他 的 研究 被 苹果 公司 商用 化 ， 用 于 Macintosh 及 Lisa。 

当然 ， Kay 最 具 影 响 力 的 研究 恐怕 就 是 提出 了 面向 对 象 程 序 设计 思想 。 可 以 毫 不 夸张 地 
说 ， 这 种 思想 影响 了 整整 一 代 程 序 员 。 至 于 Smalltalk 语言 ， 严 格 地 说 ， 并 不 是 Kay 个 人 的 
成 果 ， 而 是 由 一 个 团体 共同 完成 的 。 

1984 年 ，Kay 加 入 苹果 公司 。2001 年 ， 他 创建 了 Viewpoints Research Institute， 从 事 儿 
童 学 习 研 究 和 先进 软件 开发 。 

由 于 面向 对 象 程 序 设计 思想 及 对 Smalltalk 语言 的 贡献 ，Kay 荣获 2003 年 的 图 灵 奖 。 
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第 7 章 


优化 技术 


Control over the use of one’s ideas really constitutes control over other people’s lives; and it is 


usually used to make their lives more difficult. 


] 7.1 优化 概述 


7.1.1 什么 是 优化 


—— Richard Stallman 


优化 (Optimization ) 是 现代 编译 技术 中 一 个 非常 重要 的 话题 。 仅 就 研究 现状 而 言 ， 随 


着 其 他 阶段 的 理论 研究 与 实现 技术 的 逐步 完善 ， 有 理由 相信 优化 技术 将 是 评价 未 来 编译 器 优 
劣 的 唯一 标准 。 

经 过 先前 章节 的 学 习 ， 读 者 应 该 知道 IR 生成 及 目标 代码 生成 都 是 一 种 机 械 的 翻译 过 
程 ， 它 们 更 多 考虑 的 是 如 何 实现 等 价 地 转换 ， 而 往往 忽略 了 目标 代码 的 品质 因素 。 随 着 编译 
器 的 广泛 应 用 ， 人 们 似乎 已 经 不 能 接受 这 种 平凡 的 翻译 过 程 了 。 无 论 何 时 何 地 ， 目 标 程 序 的 
执行 效率 仍然 是 程序 员 关 注 的 重要 指标 。 由 此 ， 编 译 器 设计 者 引入 了 编译 优化 的 概念 ， 试 区 


通过 一 些 特 殊 的 算法 使 得 编译 器 产生 更 优 的 目标 代码 。 这 上 


之 间 并 不 存在 巴 
评估 并 作 上 
程序 所 占用 空间 越 小 )， 则 执行 效率 就 必定 越 
而 言 ， 不 同 指令 所 需 的 机 器 周期 可 能 不 同 。 在 这 
间 之 间 的 关系 可 能 是 非常 微妙 的 ， 甚 至 会 出 现 一 

这 种 情况 并 不 罕见 。 因 此 ， 试 图 从 理论 上 分 
不 过 ， 当 明确 了 应 用 目标 后 ， 这 个 问题 就 会 变 得 
来 说 ， 代 码 执行 效率 可 能 是 程序 员 更 关心 的 因素 ， 为 上 


看 。 但 有 时 却 并 非 如 此 ， 在 一 些 特殊 性 


吕 


让 ， 


他 介 


EFE 往 愿意 以 


有 的 “更 优 ” 主 要 体现 在 以 下 三 个 
方面 : 代码 执行 的 效率 、 代 码 执行 的 所 需 空间 大 小 、 代 码 本 身 的 大 小 。 一 般 而 言 ， 以 上 三 者 
4 况 下， 即使 是 程序 员 可 能 也 无 法 准确 
最 佳 抉 择 ， 更 何况 是 编译 器 。 举 个 简单 的 例子 ， 通 常 认为 指令 行 数 j 
高 〈 不 考虑 循环 跳 转 )。 不 过 ， 对 于 
种 情况 下， 代码 执行 效率 及 其 本 身 所 占 
矛盾 的 状态 。 实 际 上 ， 在 繁多 的 体系 结构 
论证 优化 算法 的 成 效 可 
相对 容易 了 。 例 如 ， 针 对 当今 的 x86 目标 机 


战 少 ( 即 目标 
目标 机 


某 些 


j 宇 


怠 日 
有 十 


比较 复杂 的 。 


牺牲 一 定 的 存储 空间 


用 征 
作为 代价 。 在 这 种 性 
式 系统 的 编译 器 而 言 


由 恰 ， 


， 人 情况 却 恰恰 相反 。 此 类 目 


了 形 下 ， 代 码 执行 效率 就 是 评价 算法 的 最 主要 因 
标 机 的 存储 空 


] 犁 
素 。 


然而 ， 对 于 一 些 庶 入 


有 


间 有 


a 


人 
口 


程序 的 执行 时 间 ， 因 
评价 此 类 编译 器 优化 算法 的 主要 因素 


为 嵌入 式 系统 的 程序 一 般 是 后 


运行 的 。 


因此 ， 耗 


| 


经 过 计算 机 科学 家 的 不 懈 努 力 ， 无 论 是 理 还 
的 进展 。 即 便 如 此 ， 仍 然 不 可 能 达到 “最 优 ” 
能 而 已 。 因 此 ， 从 来 没有 一 本 编译 原 到 


很 难 个 量化 的 标准 来 衡量 亿 


论 下 


九 


Co 


史 用 


四 


是 实践 应 用 ， 优 化 技术 都 取 
的 目标 ， 编 译 器 能 做 到 的 仅仅 是 改 
E 的 书 将 “Optimization” 译 成 “最 优 ”?”。 当 然 ， 人 们 也 
化 成 果 。 对 于 不 同 的 输入 ， 优 化 的 成 果 是 


i 用 户 却 并 不 大 关注 
存储 空间 多 少将 是 


得 了 较 大 
代码 的 性 


se 
EE 


不 可 判定 的 。 在 
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一 些 特 殊 的 代码 情形 下 ， 某 些 优 化 算法 甚至 可 能 降低 目标 程序 的 性 能 。 

寄 希 望 于 通过 优化 算法 尽 可 能 地 改善 目标 代码 的 思想 是 完全 可 以 接受 的 ， 但 有 一 条 底线 
是 不 能 突破 的 ， 那 就 是 代码 的 正确 性 。 以 牺牲 正确 性 为 代价 讨论 优化 算法 是 没有 任何 意义 
的 。 即 使 错误 仅仅 是 “理论 上 ”存在 ， 也 绝 不 能 忽视 。 任 何 优 化 的 前 提 都 是 必须 保证 不 会 将 
一 个 正确 的 程序 转换 成 不 正确 的 程序 。 这 是 优化 中 一 个 非常 重要 的 原则 一 一 保守 安全 原则 。 
实际 上 ， 为 了 达到 这 一 目的 ， 编 译 器 设计 者 不 得 不 面临 许多 复杂 的 问题 ， 例 如 ， 数 据 流 分 
析 、 控 制 流 分 析 、 别 名 分 析 、 依 赖 分 析 等 。 这 些 分 析 算 法 本 身 并 不 会 改善 代码 的 性 能 ， 却 为 
许多 优化 算法 提供 了 非常 重要 的 信息 资源 。 在 某 些 情况 下 ， 分 析 算 法 的 完善 可 能 会 对 优化 算 
法 产生 极其 深远 的 影响 。 由 于 两 者 之 间 的 关系 非常 密切 ， 在 现代 编译 技术 中 ， 经 常 将 两 者 都 
作为 优化 技术 讨论 的 话题 。 
下 面 ， 通 过 一 个 Neo Pascal 的 实例 分 析 ， 让 读者 对 优化 有 一 个 感性 的 认识 。 如 表 7-1 所 
， 仔 细 观 察 B、C 两 列 的 了 及， 不 难 发 现 ，C 列 的 代码 品质 、 执 行 性 能 较 B 列 有 显著 的 改 
。 就 本 例 而 言 ， 已 经 得 到 了 一 个 理论 最 优 解 ， 由 此 可 见 ， 优 化 的 意义 是 姐 良 置疑 的 。 


焉 红 


表 7-1 IIR 优化 实例 分 析 


(A) 输入 源 程序 (B) 优化 前 下 (C) 优化 后 豚 
0:(ByteToInt ,10,null, TO) 0:(PARA, 10 ,null ,I) 
var 1:(ASSIGN 4 ,_T0 ,null ,J) 1:(CALL,AA ,null ,null) 
jk,p:integer; 2:(ASSIGN 4 ,J,null,K) 
a:integer; 3:(ADD 4 ,K,J,_T1) 
有 4:(ASSIGN 4 ，Tl,nul,P) 
begin S:(PARA ,P ,null ,IT) 
j:=10; 6:(CALL , AA ,null ,null) 
k:=j; 
p:=k; 
aa(p); 
end. 


最 后 ， 简 单 讨论 一 下 关于 优化 可 行 性 的 话题 。 读 者 应 该 知道 ， 任 何 算法 的 执行 都 需要 付 
出 时 间 及 空间 的 代价 。 人 们 通常 能 够 容忍 在 编译 阶段 耗费 时 空 资源 来 改善 代码 的 品质 ， 最 
终 达 到 相对 最 优 的 运行 效果 。 不 过 ， 这 并 不 是 绝对 的 。 编 译 器 设计 者 通常 需要 考虑 以 下 两 
个 问题 : 

第 一 ， 如 果 优 化 所 付出 的 代价 无 法 或 很 难 用 运行 时 的 收益 来 弥补 ， 那 么 ， 该 优化 算法 的 
可 行 性 是 值得 商检 的 。 

第 二 ， 根 据 硬 件 环境 及 编译 模型 进行 可 行 性 分 析 。 对 于 有 些 编译 模型 而 言 ， 花 费 大 量 的 
时 间或 空间 进行 优化 可 能 是 无 法 接受 的 。 尤 其 是 在 设计 动态 编译 器 时 ， 算 法 的 时 空 耗 费 可 能 
是 决定 算法 可 行 性 的 最 关键 因素 。 


7.1.2 优化 级 别 


根据 一 些 经 典 编译 器 的 设计 经 验 ， 编 译 优化 往往 不 是 一 遍 完 成 的 。 理 想 的 状态 是 ， 在 编 
译 过 程 中 每 遍 代码 生成 后 ， 都 存在 相应 的 优化 环节 ， 尽 可 能 保证 得 到 相对 最 优 的 中 间 形 式 。 
这 种 优化 组 织 方式 的 优点 就 在 于 能 够 针对 不 同 的 代码 形式 选用 最 适合 的 优化 算法 ， 以 达到 相 


于 以 
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B ER i 
辐 、 编译 器 设计 之 路 
ee 


对 最 优 的 结果 。 


通常 ， 编 译 过 程 主要 涉及 三 种 代码 形式 : 输入 源 程 
这 三 种 形式 ， 就 需要 三 个 优化 环节 ， 或 称 为 “三 遍 优化 ”。 当然 ， 这 里 并 不 
优化 。 广 义 而 言 ， 程 序 员 对 输入 源 程序 的 改善 也 可 以 视 为 一 种 全 
工 优化 。 例 如 ， 完 全 可 以 通过 运用 一 些 编程 技巧 来 节省 程序 运行 的 时 空 消耗 ， 
是 两 个 整 型 变量 的 原 地 交换 算法 。 当 然 ， 软 伯 
氏 程序 的 可 读 性 、 


的 例子 可 能 训 
可 能 会 大 大 降 
抱 有 太 大 的 希望 ， 


时 亦 可 称 为 “ 


可 维护 性 。 因 


死 代码 、 死 变量 、 不 可 到 达 代 码 可 

真正 的 编译 优化 主要 包括 两 个 级 别 ， 即 IR 优化 与 指令 级 优化 。 这 
算法 对 目标 机 的 依赖 程度 。 所 谓 “IR 优化 ” 指 的 就 是 
沁 器 无 关 优 化 ” 
所 谓 “ 指 令 级 优化 ” 指 的 就 是 那些 与 目标 机 特性 


同 限 丁 乡 


序 、 了 及 、 目 标 代码 。 一 般 来 说 ， 针 对 
i 译 器 的 
化， 是 一 种 基于 源 程 序 的 人 


F 工 程 却 不 提 人 1 


拷 些 与 目 


~ 


yag 


冰 为 “目标 


中， 


最 经 典 


昌 这 种 编程 习惯 ， 它 
此 ， 编 译 器 设计 者 并 不 能 对 输入 源 程序 的 性 能 
能 是 无 处 不 在 的 。 
划分 的 依据 是 优化 
标 机 特性 无 关 的 优化 算法 ， 有 
(machine-independent optimization)， 它 的 优化 对 象 就 是 I 民 。 而 
E 相 关 的 优化 算法 ， 有 些 书 籍 将 


代码 优化 ”或 “机 器 相关 优化 ”(machine-dependent optimization)， 它 的 优化 对 象 就 是 目标 代 


码 。 在 优化 技术 中 ， 


IR 优化 的 理论 与 技术 相对 成 熟 ， 早 期 ， 编 译 器 设计 者 在 这 个 领域 研究 中 
投入 了 大 量 的 精力 ， 提 出 许多 著名 的 IR 优化 算法 。 而 指令 级 优化 的 发 展 稍 晚 些 。 当 然 ， 随 


着 一 些 新 型 编译 器 模型 的 提出 ， 指 令 级 优化 已 经 逐渐 成 为 一 个 细 新 的 研究 领域 。 


本 章 将 着 重 讨论 及 优化 ， 关 于 指令 级 优化 的 话题 ， 将 在 后 续 章 节 中 详 述 。 


7.2 ”控制 流 分 析 


7.2.1 流 图 与 基本 块 


输入 源 程 


序 的 逻辑 可 
的 是 输入 程序 的 语法 结构 ， 


台 已 


有 


而 语 


晶 Ar 品 


义 处 理 阶段 获得 的 是 符号 


是 非常 复杂 的 ， 是 编译 器 设计 者 无 法 预知 的 。 语 法 分 析 阶 段 获得 
表 以 及 IR。 但 是 ， 仪 依据 这 些 信息 


仍 不 足以 让 编译 器 一 窥 输入 源 程 序 的 全 貌 。 无 论 是 HIR 还 是 LIR， 它 们 为 编译 器 提供 的 关于 


输入 程序 逻辑 结构 的 信息 是 


问题 并 不 容易 ， 在 理 


无 


。 不 过 ， 这 仅仅 是 一 
于 优化 是 非常 重要 的 ， 即 数据 流 、 控 人 

数据 流 〈data flow)。 就 是 月 
IR 指令 中 被 赋值 ， 而 在 哪些 IR 指令 中 被 引 } 
译 器 通常 在 实施 优化 前 ， 必 须 分 析 获 得 这 些 信息 ， 否 则 讨论 优化 可 


理想 状态 。 


E 常 有 限 的 。 那 么 ， 编 译 器 到 底 希 望 得 到 哪些 信息 呢 ? 回答 这 个 
想 情况 下 ， 编 译 器 希望 得 到 关于 输入 源 程序 的 一 切 信息 ， 无 论 是 有 用 或 
民 据 一 些 经 典 编译 器 的 设计 经 验 ， 发 现 有 两 类 信息 对 


流 。 这 里 ， 笔 者 简单 解释 
于 描述 数据 处 理 相关 的 全 局 信息 ， 例 如 ， 一 个 变量 在 曙 


下 相关 概念 。 


都 是 基于 数据 流 分 析 的 结果 进行 代码 优化 的 。 


控制 流 (control flow)。 主 要 
完成 两 项 工作 : 循环 结构 分 析 、 流 
化 、 循 环 


析 实 现 的 ， 例 如 ， 循 环 全 
法 使 用 也 是 非常 必要 的 。 


分 析 。 本 节 的 重点 就 是 讲解 流 图 
流 图 (flow graph)。 是 程序 结构 的 


于 N 


人 bb 日 
用 十 


名 


构造 。 在 编译 技术 中 ， 


到 


豆 


eo 


的 概念 及 其 构造 。 


j 于 描述 程序 结构 的 相关 信息 。 一 般 来 说 ， 控 于 


置 等 。 除 此 之 外 ， 构 造 流 图 


j 等 。 这 些 信息 对 于 优化 算法 是 非常 重要 的 ， 


些 
编 


不 安全 的 。 很 多 算法 


| 流 分析 将 


向 图 


描述 形式 。 它 的 形式 与 程序 流程 


名 


似 ， 


些 优化 算法 是 基于 循环 结构 分 
供 数据 流 分 析 及 其 他 优化 算 
Pascal 不 涉及 循环 优化 算法 ， 所 以 并 不 需要 进行 循环 结构 


I 又 
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比 程序 流程 图 的 结构 更 为 清晰 明了 。 与 程序 流程 图 相 比 ， 流 图 更 关注 程序 的 结构 描述 。 例 
如 ， 流 图 关注 的 是 选择 结构 有 几 个 分 支 及 其 流向 ， 可 能 并 不 关心 具体 哪个 是 真 ( 假 ) 分 支 。 


在 实际 编译 器 中 ， 流 图 只 是 优化 、 代 码 生 成 的 一 种 辅助 工具 ， 通 常 ， 可 能 并 不 需要 显 式 地 输 
出 ， 因 此 ， 很 多 时 候 ， 流 图 对 程序 员 而 言 是 完全 「 WAWR 4 
透明 的 。 图 7-1 是 一 段 耻 实例 ， 它 的 流 图 描述 | 1: (NT ,_TO0,null, _12) 
形式 如 图 7-2 所 示 。 下 面 ， 结 合 图 7-2 介绍 流 图 | ? (ASSIGN4 ,ml 
的 主要 组 成 。 > ev 
基本 块 (basic block) 。 在 流 图 中 ， 使 用 方 框 | ;5:， (nr , Tg8,null, 14) 
表示 一 系列 动作 ， 通 常 将 其 称 为 “基本 块 ”。 其 | 6 (App4 A 
本 块 内 的 动作 是 自 上 而 下 顺序 执行 的 ， 不 存在 任 | 。 wpp 4 ee 
何 跳 转 。 有 时 ， 为 了 更 突出 程序 结构 的 特点 ， 也 | 。 we i 
可 以 将 基本 块 退化 为 一 个 结 点 形式 。 : (LABEL ,14 ,null, null) 
边 (edge)。 在 流 图 中 ， 使 用 有 向 线 来 表 | OP en 
示 程 序 结构 中 的 分 支 。 一 般 来 说 ， 可 以 将 跳 转 | 13 wegows Ty 
语句 分 为 两 类 : 无 条 件 跳 转 语句 、 条 件 跳 转 语 : (LABEL ，_L3 ,null ,null) 
句 。 因 此 ， 基 本 块 的 出 度 一 般 不 会 超过 2， 而 | 1!5 DD4 1D) 
入 度 却 是 不 定 的 。 当 基本 块 未 语句 是 条 件 跳 转 图 7-1 下 实例 
语句 时 ， 该 基本 块 的 出 度 必定 为 2。 在 其 他 情况 下 ， 基 本 块 《 除 出 口 基本 块 外 ) 的 出 度 必 
定 是 1。 


0: (MR4 ,I, 10, 
1: UNT , _TO, null ,_12) 


12: (LABEL ，_L2, null, null ) 2: (ASSIGN 4 ,1 ,null,I) 
13: (ASSIGN 4 ,1 ,null ,J ) 


3: (LABEL ,LL5, null , null ) 
4: (LE 4 ,I,10,_T8) 
5: (JNT ,_T8, null , L4) 


6: (ADD4 ,I, 10: (LABEL 


11: JMP 


,1L4, null, null ) 
,_L3, null, null ) 


7: (LABEL , 16, nmull , null ) 
8 (ADD4 ,1,1,1) 
9: (JMP ，L5 , null , null ) 


14: (LABEL ,，_ 3, null , null ) 
15: (ADD 4 ee ee 


图 7-2 与 图 7-1 对 应 的 流民 


pa 
RSS 
出 


入 口 基本 块 (entry basic block)。 流 图 必定 存在 一 个 唯一 的 入 口 ， 即 程序 首 语句 所 在 的 基 
本 块 ， 入 口 基本 块 的 入 度 必定 是 0。 不 过 ， 值 得 注意 的 是 ， 入 度 为 0 的 基本 块 却 不 一 定 是 入 
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编译 


口 基 本 块 。 


器 设计 之 路 


实际 上 ， 通 常 将 入 度 是 0 的 基本 块 ( 除 入 口 基本 块 外 ) 称 为 不 可 到 达 代 码 。 也 就 


是 说 ， 在 任何 情况 下 ， 它 们 都 无 法 被 调用 执行 。 


出 口 基本 块 (exit basic block)。 出 口 基本 块 的 数量 与 源 语言 的 特点 有 着 密切 的 关系 。 由 
于 源 语言 的 不 同 ， 流 图 的 出 口 基本 块 的 数量 是 不 同 的 。 例 如 ，C 语言 的 函数 允许 使 用 return 


语句 直接 返回 ， 因 此 ，C 语言 函数 的 出 口 与 实际 return 语句 的 数量 有 关 。 而 标准 Pascal 语言 


并 不 允许 使 用 return 语句 返回 ， 这 种 情况 下 ，Pascal 的 出 口 就 是 唯一 的 。 根 据 一 些 经 典 编 译 
器 设计 的 经 验 ， 人 们 发 现 当 流 图 的 出 口 不 唯一 时 ， 许 多 优化 问题 就 变 得 非常 复杂 了 。 为 了 降 


低 优化 的 实现 难度 ， 通 常会 为 流 图 添加 一 个 元 余 基 本 块 ， 并 且 令 原 图 中 所 有 的 出 口 基本 块 添 
加 一 条 流向 该 元 余 基 本 块 的 边 。 这 样 ， 该 元 余 基 本 块 就 成 了 流 图 的 唯一 出 
余 基本 块 称 为 “扩展 基本 块 ”(extended basic block )。 


。 有 些 书 将 该 元 
于 Pascal 函数 的 出 口 是 唯 一 的 ， 所 


以 并 不 需要 建立 扩展 基本 块 ， 这 里 就 不 再 深入 讨论 。 


流 图 主要 描述 的 对 象 是 脐 或 目标 代码 。 理 论 上 讲 ， 一 张 流 图 或 许可 以 描述 一 个 完整 的 


程序 。 不 过 ， 却 很 少 进行 这 样 的 尝试。 通常 ， 编 译 器 是 以 过 程 为 单位 生成 流 图 的 ， 因 为 这 样 
构造 得 到 的 流 图 规模 适中 ， 便 于 其 他 优化 算法 使 用 。 
事实 上 ， 构 建 流 图 的 关键 就 在 于 划分 基本 块 。 下 面 ， 就 来 看 看 如 何 将 一 个 IR 序列 划分 


成 若干 基本 块 。 
划分 基本 块 可 以 遵循 如 下 算法 : 
(1) 首先 ， 确 定 基本 块 的 入 口语 句 。 其 判定 条 件 如 下 : 


1) 程序 第 一 个 语句 。 


2) 任 


意 能 够 由 条 件 跳 转 语句 或 无 条 件 转移 语句 转移 到 的 语句 。 


3) 紧 跟 在 跳 转 语句 后 面 的 语句 。 
当 一 个 语句 满足 上 述 三 个 判定 条 件 之 一 时 ， 则 该 语句 即 为 基本 块 入 口语 句 。 


(2) 从 某 个 入 口语 句 开始 ， 直 到 下 一 个 入 口语 句 (但 不 含 该 入 口语 句 ) 或 程序 结束 语句 


之 间 的 所 


语句 即 组 成 了 一 个 基本 块 。 


完成 基本 块 划 分 后 ， 只 需 根据 基本 块 末 的 语句 的 类 型 构建 流 图 的 边 即 可 。 如 果 块 末 语 句 


为 无 条 件 曙 


则 构造 一 个 指向 后 继 语 句 所 在 的 基本 块 的 边 即 可 。 这 个 过 程 并 不 复杂 ， 读 者 参考 图 7-2、 氏 


kt 转 时 ， 则 构造 一 条 指向 目的 标号 所 在 基本 块 的 边 。 如 果 块 末 语 句 不 是 跳 转 语句 时 ， 


7-3 分 析 构 造 过 程 ， 这 里 不 再 详细 讲述 。 
7.2.2 流 图 的 数据 结构 


前 面 ， 


中 相关 源 代 码 的 实现 。 


已 经 详细 介绍 了 流 图 的 概念 及 其 构造 方法 。 在 本 小 节 中 ， 将 开始 分 析 Neo Pascal 


下 面 ， 先 来 看 看 Neo Pascal 中 基本 块 的 结构 定义 。 
【声明 7-1 】 
typedef struct CBasicBlock 
{ 
int iStart; // 基 本 块 入 口语 句 位 序号 
int iEnd; // 基 本 块 出 口语 名 位 序号 
vector<int> DownFlow: // 当 前 基本 块 的 后 继 基本 块 集合 
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vector<int> UpFlow:; // 当 前 基本 块 的 前 趋 基本 块 集合 
CBits *Def // 定 值 变 量 集合 
CBits *Use; /引用 变量 集合 
CBits *InSet; /入 口 变量 集合 
CBits *OutSet; /出 口 变量 集合 


iStart、iEnd 两 个 属性 是 用 于 描述 基本 块 入 、 出 


语句 的 位 序号 。 由 于 Neo Pascal 


的 IR 是 以 顺序 线性 表 形 式 存储 的 ， 所 以 只 需 两 个 数值 类 型 的 变量 足以 描述 基本 块 入 、 


出 


DownFlow、UpFlow 两 个 属性 用 于 描述 基本 块 之 间 的 关系 ， 即 流 图 中 的 边 。 由 于 流 图 是 


一 个 有 向 图 ， 有 读者 可 能 认为 根本 不 需要 使 用 两 个 属 : 
DownFlow 描述 其 后 继 基 本 块 即 可 。 不 过 ， 这 却 不 是 一 个 好 3 
仅 需 要 关心 当前 基本 块 的 后 继 基 本 块 ， 有 时 也 需要 了 解 当前 基本 块 的 前 趋 基本 块 。 所 以 ， 比 


ys 


生 描述 流 图 的 边 ， 而 只 需 使 用 


FE 意 。 实 际 上 ， 很 多 优化 算法 不 


较 理 想 的 基本 块 结构 一 般 都 需要 存储 其 前 趋 基本 块 的 信息 。 


这 里 ， 值 得 读者 注意 的 是 基本 块 的 结构 的 定义 很 大 程度 上 取决 于 IR 的 组 织 形式 。 例 


如 ， 编 译 器 设计 者 使 用 链 式 结构 组 织 及， 那么 ， 基 本 块 的 结构 也 就 可 能 复杂 些 。 


剩 


研究 


下 的 4 个 属性 都 是 用 于 描述 基本 块 数据 流 相关 信息 


的 ， 在 此 ， 读 者 并 不 需要 深入 


/ 


图 。 在 Neo Pascal 中 ， 流 图 的 结构 声明 如 下 : 


【声明 7-2 】 


map<int,vector<CBasicBlock>> BasicBlock; 


下 面 ， 再 来 看 看 流 图 的 结构 定义 。 实 际 上 ， 流 图 
流 图 是 以 过 程 为 单位 生成 的 ， 也 就 是 说 ， 一 张 流 图 描述 的 是 
但 并 不 描述 过 程 之 间 的 依赖 关系 。 因 此 ， 针 对 整个 输入 程序 的 控制 流 分 析 可 能 会 生成 多 张 流 


就 是 基本 块 的 集合 。 在 Neo Pascal 中 ， 


个 过 程 〈 函 数 ) 的 控制 结构 ， 


// 流 图 的 结构 定义 


这 是 一 个 map 表 结 构 ， 它 存储 的 是 整个 输入 程序 的 流 图 集合 。 其 中 ， 一 个 表 项 即 表 示 


一 张 流 图 ， 以 过 程序 号 为 关键 字 进行 索引 。 
7.2.3” 流 图 的 构造 


的 难度 也 应 该 相对 较 低 。 
不 过 ， 在 编译 过 程 中 ， 构 造 流 图 的 次 数 ; 


在 本 小 节 中 ， 将 讨论 Neo Pascal 的 流 图 构造 入 
流 图 的 关键 就 在 于 分 析 基 本 块 的 入 口 。 根 据 4 


各 是 非常 可 观 的 ， 


法 。 经 过 前 面 的 讲解 ， 读 者 已 经 知道 构造 
E 前 的 分 析 ， 算 法 的 逻辑 是 比较 明确 的 ， 而 实现 


并 不 是 通常 认为 的 一 次 或 者 几 


次 。 实 际 上 ， 任 何 优化 算法 都 是 针对 某 种 或 者 几 种 特定 的 情景 进行 分 析 与 优化 的 。 然 而 ， 


优化 算法 的 执行 必定 存在 先后 次 序 。 后 续 的 优化 算法 执行 完毕 后 ， 可 能 导致 代码 情景 
发 生 一 定 变化 。 这 种 情况 下 ， 有 可 能 为 先前 已 执行 完毕 的 某 些 优化 算法 创造 了 新 的 条 件 。 
一 般 而 言 ， 优 化 算法 需要 经 过 多 次 和 迭代， 直至 达到 一 个 相对 稳定 的 状况 。 在 此 过 程 中 ，1 


于 代码 情景 的 不 断 变化 ， 经 常 需要 重新 构造 流 图 。 因 此 ， 编 译 器 设计 者 不 得 不 考虑 流 图 构 


造 算法 的 性 能 。 


Neo Pascal 的 流 图 构造 算法 如 程序 7-1 所 示 。 


导 i 
四 、 编译 器 设计 之 路 
ee 


程序 7-1 DFA.cpp 


1 void CDataFlowAnalysis::GetBasicBlock(int iProcIndex) 
2 {1 
3 vector<CBasicBlock> TmpBasicBlocks; /临时 流 图 
4 map<int,int> Lbl_Block; // 散 列表 ， 描 述 记录 标号 及 其 食 行 号 的 相应 关系 
3 int iStart=0; /基本 块 入 
6 map<int,int> ReWrite; // 重 写 散 列表 
2 int i; 
8 for(i=0;i<SymbolTbl.ProcInfoTbl[iProcIndex].m Codes.size0;it+) ”// 遍 历 人 R 列表 
9 { 
10 CBasicBlock TmpBb; 
11 IRCode * TmpIR=&SymbolTbl.ProcInfoTbl[iProcIndex].m_Codes[i]; /获取 当前 人 
12 Opti_Tbl* TmpOpti=SearchOptiTbl(TmpIR->m eOpType); // 获 取 处 理 方案 
13 if (TmpOptil=NULL && TmpOpti->eJmpType!=Opti Tbl::None) 
14 { 
15 switch(TmpOpti->eJmpType) 
16 { 
17 case Opti_Tbl::Lbl: /当前 下 是 标号 
18 { 
19 if (1!=0 &e& i!=iStart) /判断 是 否 构成 了 基本 块 
20 { 
21 TmpBb.iStart=iStart; /设置 基本 块 的 入 
22 TmpBb.iEnd=i-1; // 设 置 基 本 块 的 出 
23 /如 果 当 前 IR 不 是 最 末 语 句 ， 则 设置 后 继 基 本 块 
24 if (i<SymbolTbl.ProcInfoTbl[iProcIndex].m Codes.size()) 
25 TmpBb.DownFlow.push_ back(TmpBasicBlocks.size()+1); 
26 TmpBasicBlocks.push_back(TmpBb);// 将 临时 基本 块 加 入 临时 流 图 中 
27 iStart=i; /设置 下 一 基本 块 的 入 口 
28 } 
29 // 将 标号 与 代行 号 的 对 应 关系 加 入 Lbl_Block 中 
30 Lbl Block.insert(pair<int,int> 
31 (TmpIR->m Opl.m iLink,TmpBasicBlocks.size())); 
32 上 
33 break:; 
34 case Opti Tbl::CondJmp: /当前 下 是 条 件 跳 转 
35 case Opti Tbl::NonCondJmp: // 当 前 IR 是 非 条 件 跳 转 
36 { 
37 TmpBb.iStart=iStart; // 设 置 基 本 块 入 口 
38 TmpBb.iEnd=i; /设置 基本 块 出 口 
39 /获取 跳 转 的 目的 标号 
40 int iLbl=(TmpOpti->eJmpType==Opti_ Tbl::CondJmp)? 
41 TmpIR->m Rslt.m iLink:TmpIR->m Opl.m iLink; 
42 // 按 标号 检索 Lbl_Block 
43 map<int,int>::iterator it=Lbl]_ Block.find(iLb)); 
44 if (it!=Lbl Block.end()) // 检 索 成 功 
45 TmpBb.DownFlow.push_back(it->second); /建立 与 后 继 块 的 关系 


46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
现 
Ee 
74 
75 
76 
77 
78 
79 
80 


据 流 分 析 模 块 


遍 扫 
是 非 
呢 ? 
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else 


/设置 ReWrite 表 

ReWrite.insert(pair<intint>(TmpBasicBlocks.size(O,iLblD); 
if (TmpOpti->eJmpType==Opti Tbl::CondJmp) /是 否 为 条 件 跳 转 
{ 


// 如 果 当 前 人 R 不 是 最 末 语 句 ， 则 设置 后 继 基本 块 


if (il=SymbolTbl.ProcInfoTbl[iProcIndex].m Codes.size()-1) 
TmpBb.DownFlow.push back(TmpBasicBlocks.size()+1); 
} 
TmpBasicBlocks.push back(TmpBb); /将 临时 基本 块 加 入 流 图 
iStart=i+1; /设置 下 一 基本 块 的 入 口 
} 
break; 
} 
} 
} 
if (iStart<i) /设置 最 末 基 本 块 
{ 
CBasicBlock TmpBb; 
TmpBb.iStart=iStart; // 设 置 基 本 块 入 口 
TmpBb.iEnd=i-1; /设置 基本 块 出 口 
TmpBasicBlocks.push back(TmpBb); /将 临时 基本 块 加 入 流 图 
} 


/遍历 ReWrite 表 ， 回 填 基 本 块 的 后 继 关系 
for(map<int,int>::iterator it=Re Write.begin();it!=ReWrite.end();it++) 
TmpBasicBlocks.at(it->first).DownFlow.push back(Lbl Block[it->second]); 
/遍历 基本 块 ， 根 据 基本 块 的 后 继 集合 ， 回 填 基 本 块 的 前 趋 集合 
for (int i=0;i<TmpBasicBlocks.size();i++) 
for (int J=0;j<TmpBasicBlocks.at(i).DownFlow.size();j++) 
TmpBasicBlocks.at(TmpBasicBlocks.at(i).DownFlow[j]).UpFlow.push_ back(); 
// 将 流 图 加 入 全 局 流 图 集合 
BasicBlock.insert(pair<int,vector<CBasicBlock>>(iProcIndex,TmpBasicBlocks)); 
// 设 置 当前 流 图 
CurrentBasicBlock=&BasicBlock[iProcIndex]; 


} 
在 Neo Pascal 中 ， 笔 者 并 没有 设置 独立 的 控制 流 分 析 模 块 ， 而 是 将 流 图 构造 算法 置 于 数 
。 下 面 ， 来 详细 分 析 流 图 构造 算法 的 源 代码 实现 。 
判定 基本 块 入 口 是 本 算法 的 关键 所 在 ， 不 过 ， 这 并 不 是 算法 的 难点 。 难 点 在 于 如 何在 一 
描 中 完成 基本 块 的 识别 及 块 间 关 系 的 分 析 。 实 际 上 ， 使 用 两 遍 扫描 分 别 完成 这 两 项 工作 
常 简单 的 。 不 过 ， 这 却 不 是 一 种 高 效 的 方案 。 那 么 ， 一 遍 扫描 完成 流 图 分 析 的 难点 何在 
当 跳 转 语句 的 目的 标号 出 现在 跳 转 语句 之 后 ， 算 法 就 很 难 获取 两 者 之 间 的 关系 。Neo 


Da 


wt 


Pascal 采用 了 一 种 回填 的 机 制 ， 即 实现 了 一 遍 扫描 构造 流 图 的 算法 。 整 个 程序 主要 由 三 部 分 


组 成 


: 遍历 IR 列表 、 回 填 基 本 块 后 继 关 系 、 回 填 基 本 块 的 前 趋 关系 。 
第 8 一 61 行 : 这 个 循环 主要 用 于 遍历 IR 列表 ， 根 据 IR 的 操作 符 ， 判 断 基本 块 的 入 口 。 
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导 
昌 编译 器 设 
当中 


这 里 ，Neo Pascal 设置 了 一 张 二 维 表 opti Tbl， 这 张 表 中 记录 了 各 种 IR 操作 符 在 各 类 优化 算 
法 中 所 需 执 行 的 动作 ， 也 就 是 “处 理 
的 工作 对 象 都 是 了 及。 通常 ， 算 法 需要 对 IR 操作 符 进行 判 
列 程序 就 是 Opti_Tbl 的 声明 形式 ，T 


逐一 列 出 。 


【声明 7-3】 


计 之 路 


struct Opti_Tbl 


{ 


OpType Op; 


int eJmpType; 


int eExpType; 


int eConstPropType; 


int eOpToken; 
int eDeadCode; 
int eAlgebraicProcess; 


int eCommutative 


} 


方案 ”。 无 论 是 构造 流 图 或 者 是 


/HR 操作 符 

// 跳 转 类 型 

// 表 达 式 类 型 

// 常 量 传 播 类 型 
// 单 词类 型 

// 死 代码 操作 类 型 
/代数 简化 类 型 
/是 否 满足 交换 律 


第 11、12 行 : 以 IR 操作 符 为 关键 字 检索 处 理 方案 表 ， 检 索 成 
Opti Tbl 结构 ， 和 否则 返回 null。 这 里 需要 注意 一 点 ， 从 设计 的 初衷 来 说 ，Opti_Tbl 表 的 记录 
与 IR 操作 符 是 一 一 对 应 的 ， 也 就 是 说 ， 检 索 永 远 不 会 失败 。 但 事实 上 ， 有 些 优化 算法 根据 
需要 只 为 每 一 大 类 操作 符 设置 一 个 表 项 ， 以 便 将 一 些 雷同 的 操作 符 归 类 处 理 。 因 此 ， 需 要 考 


篆 弄 中 
虑 检索 失败 的 情况 。 
第 13 行 : 根据 检索 得 到 的 处 至 


方案 的 eJmpType 属 习 


其 他 优化 算法 ， 它 们 


断 ， 并 执行 相应 的 处 理 方案 。 下 
1 该 表 的 初始 化 值 请 参见 Opti Tblh 文件 ， 这 里 就 不 再 


功 时 ， 则 返回 


相应 的 


E， 完 成 相 


应 的 处 理 动作 。 


eJmpType 属性 用 于 描述 IR 的 跳 转 情况 ， 其 可 能 的 取 值 包括 : None、Lbl、CondJmp、 


NonCondJmp。 在 流 图 
无 条 件 跳 转 。 至 于 其 他 的 任何 IR 操作 符 都 不 是 算法 所 关注 的 ， 因 
所 以 其 他 的 人 R 操作 符 相 应 的 eJmpType 取 值 为 None， 表 示 无 需 处 理 这 类 指令 ， 直 接 


入 口 ， 
跃 过 即 可 。 


第 15 行 : 根据 eJmpType 的 取 值 ， 分 别 进 
行 : 处 理 标号 类 型 


第 17 一 33 


构造 算法 中 ， 需 要 关心 的 IR 操作 符 主要 是 3 类 ， 即 标号 、 条 件 跳 转 、 


行 相应 的 处 理 。 


况 之 外 ， 出 


是 ， 需要 1 
该 标号 为 且 
第 34 一 58 
上 ， 区 别 无 条 人 


现 标 号 就 意味 着 其 上 
块 的 开始 。 而 这 两 个 基本 块 的 关系 也 非常 明确 
记录 标号 及 其 所 标识 的 基本 块 的 序号 关系 (登记 在 Lbl_Block 
的 的 跳 转 语句 。 
里 跳 转 类 型 R。 在 Neo Pascal 中 ， 包 括 JMP、JNT、JT、JE_1。 实 际 


行 : 处 


mA 


区 


转 的 目标 标号 ) 
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F 跳 转 、 条 件 跳 转 


数 ) 是 不 可 能 以 跳 转 类 型 民 
其 后 的 一 句 IR 就 是 一 个 新 基本 块 的 入 
果 是 无 条 件 跳 转 ， 那 么 这 两 个 基本 块 之 


行 人民 


， 即 前 者 是 后 者 的 前 趋 


的 目的 就 是 胡 


角 定 基本 块 之 间 的 关系 。 由 


结束 的 ， 


间 就 可 能 不 存 克 


。 如 果 是 条 件 跳 转 ， 则 前 者 将 是 后 者 的 前 趋 基 本 块 。 当 


为 它们 不 可 能 是 基本 块 的 


IR。 标 号 是 基本 块 的 可 能 入 口 。 除 第 一 行 是 标号 IR 的 情 
应 该 就 是 某 个 基本 块 的 结束 ， 


标号 本 身 又 是 新 基本 
。 不 过 ， 值 得 注意 的 


表 中 ) ， 以 便 处 理 以 


于 Neo Pascal 的 过 程 


因此 出 现 跳 转 语句 就 意味 着 一 个 基本 块 的 结束 ， 而 
口 。 这 两 个 基本 块 的 关系 就 依赖 于 代 的 跳 转 类 型 ， 
E 关 系 〈 除 非 后 者 的 首 行 IR 正好 是 跳 


如 


然 ， 对 于 跳 转 类 型 民 
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的 另 一 个 处 理 动作 就 是 建立 跳 转 IR 所 在 基本 块 与 跳 转 目的 基本 块 的 关系 。 这 一 过 程 需要 


虑 两 种 情况 ， 即 向 前 跳 转 、 向 后 跳 转 。 向 前 跳 转 的 情况 比较 容易 ， 由 于 算法 是 顺序 遍历 IR， 
所 以 目的 标号 必定 已 经 识别 ， 并 登记 在 Lbl Block 表 中 ， 只 需 检 索 获 取 标 号 对 应 的 基本 块 序 


号 建立 关系 即 可 。 而 向 后 跳 转 的 情况 复杂 一 些 ， 由 于 无 法 预知 目标 标号 所 在 的 基本 块 ， 因 


此 ， 仅 能 将 其 记录 在 ReWrite 表 中 ， 以 便 遍 历 后 续 程 序 回填 相应 的 关系 。 当 然 ， 在 不 考虑 效 
率 的 情况 下 ， 也 可 以 将 此 过 程 分 为 两 遍 处 理 。 


第 62 一 68 行 : 主要 用 于 处 理 最 末 一 个 基本 块 。 因 为 最 末 一 个 基本 块 的 结束 可 能 无 法 通 
过 标号 或 者 跳 转 标识 ， 一 般 需 要 在 遍历 完毕 后 进行 特殊 处 理 。 


第 70~71 


行 : 遍历 ReWrite 表 回 填 所 有 DownFlow 信息 。 此 时 ， 已 经 不 需要 考虑 目的 


标号 不 存在 等 情况 。 即 使 是 输入 源 程序 存在 一 定 的 错误 ， 应 该 已 经 在 语义 分 析 阶 段 完 成 出 错 


次 


里 了 。 任 何 优化 算法 都 是 建立 在 IR 列表 绝对 正确 的 前 提 下 讨论 的 。 


第 73 一 75 行 : 根据 基本 块 的 DownFlow 集合 的 信息 ， 填 写 相应 的 UpFlow 集合 。 笔 者 
觉得 这 是 一 个 非常 简单 的 处 理 过 程 。 当 然 ， 可 以 将 其 集成 在 整个 IR 遍历 过 程 中 完成 ， 但 那 
样 做 可 能 会 使 问题 变 得 稍 复杂 。 


第 77 行 : 


将 该 过 程 〈 函 数 ) 的 流 图 放 到 流 图 集合 中 。 前 面 已 经 说 过 ， 分 析 算 法 是 以 过 


程 (函数 ) 为 单位 构造 流 图 ， 因 此 ， 一 个 完整 的 程序 通常 可 以 存在 若干 张 流 图 。 


7.2.4 优化 的 分 类 


本 块 内 优化 )。 


下 面 先 来 看 看 过 程 内 优化 、 块 内 优化 。 在 很 多 编译 原理 的 书籍 中 ， 将 前 者 称 为 “全 局 优 
化 ”， 而 将 后 者 称 为 “局 部 优化 ”。 相 对 而 言 ， 局 部 优化 的 实现 难度 要 远 低 于 全 局 优化 ， 从 理 


在 编译 技术 中 ， 通 常 将 优化 算法 分 为 三 类 : 过 程 间 优化 、 过 程 内 优化 、 块 内 优化 《〈 即 基 


论 上 来 说 ， 局 部 优化 能 达到 的 优化 效果 都 可 以 由 相应 的 全 局 优化 实现 。 那 么 ， 是 否 意味 着 局 


部 优化 已 经 失去 了 存在 的 价值 呢 ? 答案 是 否定 的 。 实 际 上 ， 在 某 些 场合 ， 考 虑 到 全 局 优化 的 


实现 代价 或 可 行 性 等 因素 ， 编 译 器 设计 者 更 愿意 选择 局 部 优化 而 不 是 全 局 优化 。 


绝 大 部 分 全 局 优化 都 是 基于 数据 流 、 控 制 流 实 现 的， 这 也 是 它 与 局 部 优化 最 主要 的 差 


异 。 数 据 流 分 析 是 一 项 比较 复杂 的 工程 ， 尤 其 是 处 理 指针 、 引 用 等 元 素 时 ， 可 能 很 难 精准 地 
分 析 其 引用 、 定 值 情况 。 当 然 ， 有 时 为 了 便于 实现 ， 一 些 消极 的 分 析 方 法 也 是 可 以 接受 的 。 


相对 而 言 ， 


局 部 优化 则 较 少 依赖 于 数据 流 信息 。 例 如 ， 基 于 DAG 的 代码 重 写 就 是 一 个 


典型 的 局 部 优化 算法 ， 它 的 优化 过 程 几乎 很 少 需要 数据 流 、 控 制 流 信息 的 支持 ， 但 它 却 依然 
能 够 实现 块 内 的 常量 折合 、 常 量 传播 、 复 写 传 播 等 优化 效果 。 对 于 那些 不 考虑 数据 流 、 控 制 


流 分 析 的 小 型 


4 译 器 而 言 ， 基 于 DAG 实现 的 代码 重 写 算法 是 一 个 不 错 的 选择 ， 它 的 优化 效 


果 也 是 令 人 满意 的 。 而 这 种 代码 重 写 算法 的 实现 代价 视 具 体 I 形式 而 定 ， 一 般 来 说 ， 它 更 


偏向 于 树 型 结构 的 蕉 。 
在 早期 ， 由 于 过 程 间 优 化 的 实现 代价 及 执行 效率 都 相对 较 大 ， 因 此 很 多 研究 认为 过 程 间 


分 析 、 优 化 都 是 徒劳 的 。 当 然 ， 更 多 的 原因 是 鉴于 过 程 间 优化 的 效率 。20 世纪 80 年 代 末 ， 
Richardson、Ganapathi 就 研究 分 析 了 过 程 间 优化 的 作用 及 其 效率 ， 研 究 发 现 过 程 间 优化 的 成 


效 是 显著 的 ， 但 是 其 效率 却 是 相对 较 低 的 ， 常 常 使 编译 速度 大 幅度 降低 。 同 时 ， 发 现 具 有 


般 意义 的 过 程 1 


司 优化 是 相对 复杂 的 ， 对 编译 器 的 设计 与 实现 提出 了 较 高 的 要 求 。 因 此 ， 在 经 
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B ER i 
罗 。 编译 器 设计 之 路 
[ 
典 编译 技术 中 ， 很 少 涉 及 过 程 间 优 化 的 话题 。 不 过 ， 过 程 间 优 化 在 并 行 编译 领域 的 价值 是 令 
人 兴 耕 的 。 

Neo Pascal 涉及 的 下 优化 算法 大 多 属于 全 局 优化 。 由 于 全 局 优化 需要 处 理 大 量 复杂 的 
数据 流 分 析 ， 所 以 数据 流 分 析 将 是 本 章 的 一 个 重要 话题 。 下 面 ， 将 详细 讲解 数据 流 分 析 算 法 
及 其 实现 。 


| 7.3 ”数据 流 分 析 


7.3.1 数据 流 的 相关 概念 


实际 上 ， 数 据 流 的 概念 在 很 多 学 科 中 都 有 论述 ， 并 不 是 编译 技术 的 专 有 名 词 。 当 然 ， 在 
不 同 的 应 用 领域 中 ， 数 据 流 的 含义 也 存在 较 大 的 差异 。 即 使 是 同一 学 科 的 两 个 专业 ， 对 数据 
流 的 理解 也 不 尽 相 同 ， 读 者 干 万 不 要 将 本 书 讨论 的 数据 流 与 软件 工程 中 的 数据 流 混淆 。 在 讨 
论 数据 流 的 概念 之 前 ， 先 引入 几 个 相关 的 概念 。 
定 值 点 : 变量 A 的 定 值 点 是 一 名 由， 而 执行 该 句 下 可 能 会 对 A 的 值 产生 影响 ， 那 么 ， 
该 IR 的 位 置 称 为 A 的 定 值 点 。 最 常见 的 定 值 点 就 是 对 A 的 赋值 ， 当 然 ， 必 须 考虑 指针 、 引 
用 等 对 变量 可 能 产生 的 定 值 。 在 整个 程序 范围 内 ， 一 个 变量 的 定 值 点 可 能 是 非常 多 的 。 

引用 点 : 变量 A 的 引用 点 是 一 句 人 民 ， 而 该 句 及 可 能 会 引用 变量 A 的 值 。 那 么 ， 该 及 
的 位 置 称 为 A 的 引用 点 。 同 样 ， 也 必须 考虑 指针 、 引 用 等 机 制 带 来 的 可 能 引用 情况 。 

引用 一 定 值 链 (ud 链 ): 假设 在 程序 中 某 点 u 引用 了 变量 A 的 值 ， 则 把 能 到 达 u 的 A 的 
所 有 定 值 点 的 集合 称 为 变量 A 能 够 到 达 u 引用 点 的 引用 一 定 值 链 。 
定 值 一 引用 链 (du 链 ): 假设 在 程序 中 某 点 d 是 变量 A 的 定 值 点 ， 则 把 该 定 值 能 到 达 的 
对 A 的 所 有 引用 点 的 集合 称 为 变量 A 的 d 定 值 点 的 定 值 一 引用 链 。 
活跃 变量 (live variable): 亦 称 活 变量 。 对 程序 中 的 变量 A 和 某 点 p 而 言 ， 如 果 存 在 一 
条 从 p 开始 的 通路 ， 其 中 引用 了 A 在 p 点 的 值 ， 则 称 A 在 p 点 是 活跃 的 。 讨 论 活跃 变量 的 
主要 意义 就 在 于 删除 死 变 量 、 死 代码 ， 以 节省 存储 空间 的 消耗 。 死 变量 可 能 是 用 户 声明 ， 也 
可 能 是 编译 器 产生 的 临时 变量 。 


7.3.2 ”数据 流 分 析 的 策略 


数据 流 分 析 (data-flow analysis〉 指 的 是 一 组 用 来 获取 有 关 数 据 如 何 沿 着 程序 执行 路 径 
流动 变化 的 相关 信息 的 技术 ， 这 些 信息 对 于 优化 算法 设计 是 极其 重要 的 。 从 程序 执行 的 角度 
而 言 ， 数 据 流 分 析 就 是 把 每 个 程序 点 和 一 个 数据 流 值 关联 起 来 的 过 程 。 而 这 个 数据 流 值 就 是 
该 程序 点 所 能 观察 到 的 所 有 程序 状态 的 集合 《〈 即 程序 所 有 变量 值 的 集合 ) 的 抽象 形式 。 同 
时 ， 和 希望 得 到 程序 中 每 个 位 置 点 上 的 数据 流 值 。 在 优化 编译 器 中 ， 数 据 流 分 析 的 主要 目的 就 
是 在 保证 安全 的 情况 下 定位 优化 的 机 会 。 告 知 优化 算法 哪些 位 置 可 以 进行 代码 变换 ， 以 获得 
更 优 的 执行 效果 。 

与 优化 算法 类 似 ， 通 常 可 以 将 数据 流 分 析 分 为 两 类 ， 即 基本 块 内 分 析 与 基本 块 间 分 析 。 
由 于 基本 块 内 的 IR 都 是 自 上 而 下 顺序 执行 的 ， 根 据 IR 的 语义 ， 确 定 每 句 IR 的 数据 流 值 并 
不 是 非常 困难 的 。 当 然 ， 对 于 某 些 支持 指针 或 引用 的 编译 器 来 说 ， 问 题 可 能 会 复杂 一 些 。 


刀 
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基本 块 间 
方程 组 ， 
析 ”， 时 


下 


优化 技术 中 
无 论 是 块 内 数 


的 数 所 


居 流 分 析 是 
放 设 计 和 迭代 算法 实现 求 


基 


于 流 图 讨论 的 。 块 间 分 析 主 要 是 根据 流 图 
径 方 程 组 的 过 程 。 


优化 技术 | 第 7 之 


建立 相应 的 数据 流 
据 流 分 析 也 称 为 “全 局 数据 流 分 


块 间 数 


一 个 重要 的 研究 领域 。 本 章 将 重点 讨论 
四 流 分 析 还 是 块 间 数 据 流 分 析 ， 都 不 得 不 面临 一 个 问题 ， 那 就 是 必须 严格 


区 分 “可 能 ”还 是 “必然 ”。 


如 图 


到 达 第 5 行 的 引 


日 
是 否 


变量 j 的 值 ， 那 么 ， 此 时 
行 。 然 而 ， 仅 依 和 
针对 这 
第 2 行 的 定 值 是 无 法 到 达 的 ， 否 贝 


于 了 


里 。 


指向 的 变 


不 安全 。 


当然 ， 读 者 可 能 会 想到 对 k 的 引用 情况 进行 分 析 ， 这 是 
却 是 比较 复杂 为 设计 者 不 得 不 考虑 二 重 或 多 重 的 指针 引用 情况 。 在 现代 编译 技术 中 ， 
针对 指针 、 引 用 、 
对 引用 、 指 针 、 别 名 进行 完整 的 分 析 ， 然 后 ， 基 于 分 
“消极 ”就 是 以 一 种 比较 保守 的 态度 处 到 


能 够 到 达 


区 一 话题 。 


7-3 所 示 ， 请 问 哪些 关于 变量 j 的 定 值 IR 能 够 


的 ， 因 


处 ? 第 4 行 食 


居 图 7-3， 编 译 器 


Pj 的 定 值 是 必然 能 够 
到 达 的 ， 这 是 考 庸 置 颖 的。 那么， 第 2 行 IR 的 j 的 定 值 
尼 ? 实际 上 ， 这 只 是 一 个 可 能 
点 。 如 果 指 针 k 指向 变量 j 时 ， 第 3 行 IR 的 定 值 将 影 


1 达 的 定 值 


响 

第 2 行 的 定 值 就 不 可 能 到 达 第 5 
民 本 无 法 判断 k 具体 
情况， 编译 器 设计 者 只 能 认定 
| 可 能 导致 优化 算法 


别名 等 语言 机 制 ， 通 常 有 两 种 策略 : 积极 的 外 


图 7-3 可 能 定 值 的 流 图 


可 行 的 。 不 过 ， 其 分 析 过 程 


a 
完全 


0 消极 的 。 所 谓 “ 积 极 ” 就 是 
结果 实现 更 精准 的 数据 流 分 析 。 所 谓 
别名 等 ， 充 分 考虑 存在 “可 能 ”的 条 


引用 、 指 针 、 


件 。 相 对 而 言 ， 消 极 方式 的 实现 要 简单 一 些 ， 它 不 必 准 确 地 进行 引用 、 别 名 等 分 析 。 虽 然 基 
于 消极 方式 实现 的 数据 流 分 析 可 以 被 大 多 数 编译 器 接受 ， 但 也 不 可 否认 一 个 事实 ; 这 种 分 析 
方法 必然 会 影响 结果 的 精准 程度 ， 也 不 可 避免 地 会 对 优化 效果 有 一 定 副作用 。 

最 后 ， 笔 者 再 次 强调 :安全 性 是 一 个 原则 问题 ， 是 不 容 置 疑 的 。 无 论 使 用 何 种 优化 集 略 


或 分 析 方 法 
然 ” 的 问题 ， 


优化 却 是 不 能 接受 的 。 尤 其 


每 一 个 转换 动作 执行 的 前 提 就 是 保证 转换 的 正确 性 。 针 对 “可 能 ”还 是 “ 必 


考虑 安全 性 可 能 比 其 他 任何 因素 都 重要 。 优 化 失效 是 可 以 接受 的 ， 但 不 安全 的 
是 在 分 析 一 些 复杂 的 指针 、 引 用 操作 时 ， 这 是 最 容易 忽视 的 。 例 


如 ， 引 
7.3.3 活跃 变量 分 析 
全 局 数据 流 分 析 的 关键 就 在 于 根据 流 
的 数据 流 值 。 那 么 ， 全 局 数据 流 问 题 的 求解 过 程 必定 


根据 数据 流 的 实际 问题 ， 通 常 是 以 数据 流 方程 作为 求解 与 
多 数据 流 问 题 都 可 
出 了 许多 经 典 的 数据 流 模 式 ， 


以 以 方程 的 


区 式 加 以 


=! 


析 


个 经 } 


实例 ， 


人 


网 如 ， 活 跃 变 量 分 析 、 到 达 一 定 


参数 可 能 给 实 参 带 来 的 副作用 、 多 重 指针 的 真实 目标 等 都 是 需要 考虑 的 。 


图 及 基本 块 内 的 数据 流 值 来 分 析 得 到 整个 流 图 各 点 
是 读者 关心 的 。 

法 实现 的 依据 。 事 实 上 ， 很 
民 据 实 际 编译 器 设计 的 经 验 ， 计 算 机 科学 家 提 
值 分 析 等 。 其 中 ， 活 跃 变量 分 


述 。 


E: 


假设 一 个 基本 块 s， 


out[S]。 导 


~ 


入 


8 么 ， 必 定 有 下 式 成 立 : 


out[s] = Uin[i] 


有 深远 的 现实 意义 。 本 小 节 将 重点 讨论 活跃 变量 的 相关 话题 。 
处 的 活跃 变量 集合 为 in[s]， 而 其 出 口 处 上 


的 活跃 变量 集合 为 


(其 中 i 是 s 的 后 继 基 本 块 ) 【 式 7-1]】 
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辐 、 编译 器 设计 之 路 
ee 


这 个 等 式 的 含义 就 是 基本 块 s 出 口 处 的 活跃 变 
合 的 并 集 。 同 样 ， 可 以 
口 处 活跃 变量 集合 的 # 
令 use[s] 为 基本 块 s 


下 


将 等 式 描述 为 某 


< 


中 所 引 


的 变量 


住人 
FI 


品 o 


本 块 内 ， 某 些 


点 引 


引 


(1) 基本 块 内 所 引 
(2) 基本 块 


< 下. 各 
变量 集合 。 


值得 注意 的 是 , 千 万 不 要 误 认 为 in[sj=use[s]， 这 
样 就 忽视 了 s 的 后 继 基本 块 对 in[s] 的 影响 。 有 了 这 两 
了 活跃 变量 集合 在 基本 块 内 及 块 
问题 就 变 得 比较 


个 等 式 之 后 ， 就 明确 


j 的 变量 的 定 值 


-县 


日 


注意 ， 这 里 讨论 的 “引用 ” 指 


来 自 当 前 基本 块 外 。 在 数据 流 问 题 中 ， 仅 关 


]， 而 不 需要 关心 那些 来 自 当前 
同样 ， 令 deffs] 为 基本 块 s 中 所 定 值 的 变量 


基本 块 的 引用 点 变量 的 定 值 。 


in[s] = (out[s] — def[s]) Uuse[s] 
这 个 等 式 的 讨论 对 象 就 是 基本 块 入 、 出 口 处 的 活跃 变量 与 块 内 引用 、 定 值 的 关系 。 式 
7-2 的 观点 是 基本 块 入 口 处 的 活跃 变量 集合 由 以 下 两 部 分 组 成 : 


] 的 变量 集 


全 
品 o 


间 的 变化 关系 ， 那 么 ， 求 解 活跃 变量 
容易 了 。 下 面 ， 通 过 
过 程 。 

例 7-1 参考 图 7-4， 求 解 该 流 图 


pa 
所 。 


(1) 求解 use、def 集合 。 


求解 use、def 


民 合 完全 依赖 于 IR 的 实际 语义 ， 本 例 中 并 未 涉及 指针 引用 


个 实例 来 分 析 活 跃 变量 的 求解 


的 活跃 变量 集 


H 口 处 的 活跃 的 且 在 块 内 没有 定 值 的 


集合 。 那 么 ， 不 难得 到 下 式 ; 


量 必定 是 其 后 继 基本 块 入 口 处 活跃 变量 集 
基本 块 入 口 处 活跃 变量 的 集合 等 于 其 前 驱 基 本 块 出 


的 是 在 某 一 基 
心 这 类 特定 的 


【 式 7-2】 


7-4 求解 活跃 分 析 示 例 流 图 


等 复杂 语义 。 


求解 的 结果 如 表 7-2 所 示 。 注 意 : use[B1] 中 没有 i 的 原因 是 i 在 引用 前 已 在 本 基本 块 内 被 定 
值 ， 所 以 i 不 需要 加 入 use[B1] 集 合 。 
表 7-2 与 图 7-4 对 应 的 use、def 集合 
基本 块 use 集合 def 集合 

Bl {j} {i} 

B2 空 集 tj 

B3 空 集 {k} 

B4 {i, j} {p} 


(2) 求解 in、out 集合 。 


不 六 


不 活跃 的 ， 即 out[B4]={ }。 那 么 ， 可 以 分 别 得 到 如 下 集合 : 


in[B4]=use[B4]={1,j} 

out[B3]=out[B2]=in[B4]={i,j} 
in[B2]=out[B2]-deffB2 上 ={i} 
in[B3]=out[B3]-def[B3]= fj} 
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发 现 ， 从 最 后 一 个 基本 块 开始 向 前 计算 可 能 更 容易 。 假 设 变量 p 在 B4 后 继 块 中 


三 | 
自 
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out[B1]=in[B2] U in[B3]={i;j} 
in[B1]=(out[B1]-deffB1]) U use[B1]=fj} 

根据 上 述 计算 ， 可 以 得 到 如 表 7-3 所 示 的 结果 。 

表 7-3 与 图 7-4 对 应 的 in、out 集合 
本 卖 | i 集合 ou 
Bl 全 {1j} 
B2 人 人} {ij} 
B3 {1j} {1j} 
a {ij} 空 集 

从 本 例 中 ， 不 难 发 现 ， 根 据 数据 流 方 程 ， 计 算 活跃 变量 集合 并 不 复杂 。 由 于 图 7-4 是 一 
个 无 环 图 ， 因 此 ， 一 次 迭代 即 可 顺利 完成 分 析 过 程 。 如 果 流 图 存在 环 时 ， 友 代 过 程 会 复杂 一 
些 ， 可 能 需要 数 次 迭代 才能 完成 。 不 过 ， 不 必 担 心 迭 代 无 法 终止 的 情形 ， 事 实 上 ， 计 算 机 科 
学 家 已 经 用 数学 方法 证 明了 数据 流 方程 是 有 解 的 。 

最 后 ， 读 者 的 疑问 可 能 就 是 ， 计算 活跃 变量 集合 的 意义 是 什么 ? 在 此 ， 笔 者 稍 作 简单 说 
活跃 变量 即 死 变量 ， 也 就 是 说 该 变量 在 该 集合 所 处 位 置 点 后 不 会 有 任何 引用 。 从 优化 
度 而 言 ， 可 以 删除 基本 块 内 所 有 对 块 出 口 处 已 死 变 量 的 定 值 操作 ， 因 为 这 类 定 值 是 没有 
皇 何 实际 意义 的 。 例 如 ， 在 图 7-4 中 ， 发 现 B4 中 对 p 的 定 值 以 及 B3 中 对 k 的 定 值 都 是 无 
义 的 。 如 果 将 这 两 条 语句 删除 后 再 求解 一 次 活跃 变量 集合 ， 则 会 发 现 出 现 了 新 的 死 变 量 ， 
这 就 是 优化 算法 通常 需要 多 次 迭代 的 原因 所 在 。 事 实 上 ， 根 据 图 7-4 所 示 的 流 图 ， 最 终 优化 
法 可 以 删除 所 有 的 语句 。 


7.3.4 ud 链 与 du 链 


ud 链 、du 链 是 数据 流 分 析 中 两 个 非常 重要 的 概念 。 不 过 ， 这 两 个 名 词 却 经 常 被 初学 者 
混淆 。 下 面 从 程序 设计 语言 的 角度 来 诠释 这 两 个 概念 。 

ud 链 、du 链 仅 仅 是 两 个 概念 的 代名词 而 已 ， 它 们 揭示 了 两 类 不 同 的 信息 。 读 者 需要 关 
注 的 是 其 背后 的 概念 ， 而 非 名 词 本 身 。 从 IR 定 值 角度 而 言 ， 数 据 流 分 析 需 要 关心 的 可 能 是 
这 次 定 值 会 影响 哪些 IR 的 引用 。 而 从 IR 引用 角度 而 言 ， 数 据 流 分 析 需 要 关心 的 可 能 是 这 次 
引用 值 的 可 能 定 值 点 的 位 置 。 在 经 典 编译 技术 中 ， 将 前 者 称 为 du 链 《〈 即 定 值 一 引用 链 )， 而 
将 后 者 称 为 ud 链 《〈 即 引用 一 定 值 链 )。 

实际 上 ，du 链 是 活跃 变量 分 析 结 果 的 一 种 扩展 。 活 跃 变 量 仅 关心 变量 的 一 次 定 值 后 是 
否 存 在 可 能 被 引用 的 情况 ， 却 不 关心 具体 引用 点 的 位 置 或 存在 多 少 引 用 点 。 而 du 链 却 需要 
获得 关于 各 个 引用 点 的 详细 位 置 ， 而 不 仅仅 是 有 或 无 的 回答 。 通 常 ，du 链 是 针对 某 条 IR 而 
言 的 ， 如 果 该 IR 是 定 值 语 多， 那么， 其 du 链 描述 的 就 是 本 次 定 值 可 能 到 达 的 所 有 引用 点 。 
同 理 ，ud 链 描述 的 就 是 一 次 引用 的 可 能 到 达 的 定 值 点 。 

与 很 多 数据 流 问题 类 似 ，ud 链 、du 链 分 析 的 基本 原则 也 是 既 保守 又 激进 的 。 以 定 值 问 
题 为 例 ， 在 很 多 情况 下 ， 一 个 定 值 是 否 能 实际 到 达 某 一 特定 程序 点 是 不 可 判定 的 。 当 然 ， 有 
时 还 依赖 于 特定 的 外 部 输入 。 因 此 ， 在 通常 情况 下 ， 编 译 器 可 以 分 析 得 到 哪些 定 值 是 可 能 到 
达 的 ， 却 很 难 断 言 哪些 定 值 是 必然 到 达 的 。 即 使 如 此 ， 在 某 些 特殊 情形 下 ， 定 值 、 引 用 问题 
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TT 
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仍然 是 很 难 断 言 的 。 不 过 ， 当 出 现 这 类 情形 时 ， 编 译 器 可 能 将 无 法 


这 并 不 是 编译 器 设计 者 的 初衷。 


采 证 程序 的 正确 性 ， 虽 然 


关于 ud 链 、du 链 的 话题 ， 和 暂且 讨论 至 此 。 稍 后 笔者 还 将 详细 阐述 Neo Pascal 的 ud 


链 、du 链 分 析 ， 届 时 ， 将 介绍 ud 链 、du 链 分 析 算 法 的 基本 思想 及 其 实现 细节 。 


最 后 ， 来 看 一 个 奇怪 的 C 语言 程序 ， 如 图 7-5 所 示 。 
如 果 读 者 使 用 VC++ 编 译 这 个 例 程 ， 可 以 发 现 一 个 奇怪 的 
问题 ， 那 就 是 debug 和 release 版 程序 的 运行 结果 是 不 同 
的 。 其 中 ，debug 版 程序 的 运行 结果 是 3， 而 release 版 程 
序 的 运行 结果 是 6。 究 其 原因 就 是 数据 流 分 析 算 法 是 否 将 
后 两 句 “*p++=1” 视 为 对 b、c 的 定 值 。debug 版 程序 是 
几乎 不 做 任何 优化 的 ， 而 release 版 程序 是 经 过 编译 优化 
的 。 因 此 ，debug 版 程序 即使 无 法 预知 对 b、c 的 定 值 ， 
但 按照 程序 的 实际 语义 翻译 后 ， 仍 可 以 得 到 正确 的 结果 。 
而 经 过 优化 的 程序 则 不 然 ， 由 于 数据 流 分 析 无 法 从 


“*#p++=1” 语 句 中 分 析 获 得 任何 关于 b、c 的 定 值 线索 ， 故 认为 test 函数 的 返回 值 就 是 


1+2+3。 如 果 在 此 基础 上 再 进行 了 过 程 间 优化 ， 则 编译 器 就 ; 
量 6。 读 者 可 以 从 编译 器 生成 的 汇编 文件 中 证 实 这 个 事实 。 


int test(int aint bint c) 

{ 
int *p=&za; 
a=l]; b=2; c=3; 
*p++=1; ”//a 的 定 值 
*p++=1; /b 的 定 值 
*#p++=1; Wc 的 定 值 
return atbt+ce; 


} 
7-5 一 个 奇怪 的 C 语言 程序 


各 整个 test 函数 优化 为 一 个 常 
由 于 C 语言 标准 中 只 说 明了 函 


数 参数 的 存储 布局 以 及 参数 取 址 操作 的 有 效 性 ， 却 没有 明确 


指出 这 种 指针 引用 方式 的 安全 


性 ， 故 不 能 以 此 界定 优化 算法 是 不 正确 的 。 当 然 ， 也 很 难 就 此 认定 是 程序 逻辑 的 错误 ， 作 


为 程序 员 来 说 ， 能 做 的 就 是 尽 可 能 避免 而 已 。 事 实 上 ， 这 个 现象 不 仅 限于 参数 ， 同 样 适用 


于 讨论 局 部 变量 。 不 过 ， 由 于 不 同 版 本 程序 的 局 部 变量 的 存储 布局 是 不 一 样 的 ， 所 以 较 难 


验证 这 一 结论 。 在 分 配 debug 版 程序 的 局 部 变量 存储 空间 
息 ， 以 便 程序 员 调 试 源码 。 


7.3.5 更 多 数据 流 问题 


时 ， 编 译 器 会 加 入 大 量 调试 信 


至 此 已 经 讲述 了 数据 流 分 析 的 两 个 重要 话题 。 本 小 节 想 对 数据 流 问 题 的 一 些 高 级 话题 作 
简单 说 明 。 先 前 ， 仅 仅 介绍 了 数据 流 问 题 中 的 两 个 实例 ， 并 没有 解释 其 中 的 一 些 细节 问题 。 
实际 上 ， 有 些 读者 可 能 会 对 前 面 讲述 的 内 容 有 不 少 疑问 ， 例 如 : 


(1) 如 何 证 明 迭 代 算 法 是 收敛 的 ? 


(2) 如 何 证 明 数据 流 方程 的 解 是 正确 或 精确 的 ? 
这 里 只 是 列 了 其 中 的 两 个 问题 ， 实 际 上 ， 还 有 一 些 类 似 的 问题 需要 回答 与 论证 。 在 编译 
技术 中 ， 随 着 计算 机 科学 家 对 数据 流 分 析 的 深入 研究 ， 提 格 。 


出 了 一 套 完整 的 理论 体系 
画 | 
A 


它 主要 是 从 抽象 的 角度 论证 数据 流 方程 的 相关 论题 。 这 是 


[也 


是 想 让 读者 消除 心中 的 疑虑 ， 


大 可 不 必 怀 疑 先前 结论 的 正确 性 ， 因 为 它们 都 是 经 过 严格 证 明 的 。 
还 有 必要 说 明 一 点 ， 本 书 提 到 的 数据 流 分 析 方 法 是 一 种 最 常见 的 方法 ， 称 为 “ 迭 代数 据 


流 分 析 ”。 在 现代 编译 技术 中 ， 还 有 几 种 数据 流 分 析 方 法 是 值得 关注 的 ， 其 中 比较 经 典 的 就 


是 基于 区 间 的 数据 流 分 析 方法 。 这 是 一 种 全 新 的 思想 与 方法 ， 
法 配合 完成 。 数 据 流 分 析 方 法 的 大 致 思想 如 下 : 


通常 需要 相应 的 控制 流 分 析 方 


(1) 它 将 流 图 划分 为 各 种 类 型 的 区 域 ， 有 具体 的 类 型 视 源 语言 而 定 。 例 如 ， 经 典 的 结构 分 


析 方 法 就 将 


环 、 非 正常 区 间 )。 
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区 域 分 为 八 类 〈 块 、 认 then、 认 then-else、case、 自 我 循环 、while 循环 、 自 然 循 


(2) 算法 将 区 域 赔 化 为 一 个 结 点 ， 由 此 反复 多 次 赔 化 ， 最 终 得 到 一 个 抽象 流 图 〈 仅 包含 
一 个 结 点 )。 

(3) 在 变换 过 程 中 ， 根 据 不 同类 型 的 区 域 对 流 值 的 变换 是 有 一 定 规律 的 ， 算 法 对 流 值 施 
加 不 同 的 变换 函数 ， 最 终 得 到 整个 数据 流 分 析 结 果 。 

本 小 节 引 出 了 两 个 数据 流 分 析 的 相关 话题 〈 格 、 区 间 分 析 )， 它 们 都 是 现代 编译 技术 中 
的 经 典 理论 。 不 过 ， 园 于 篇 幅 ， 只 能 简单 提 及 。 


7.4 ”数据 流 分 析 的 实现 


7.4.1 


定 值 点 与 引 月 
基于 这 两 者 讨论 的 。 在 经 } 
没有 太 多 的 理 
易 的 ， 它 规避 了 详 
备 的 分 析 算 法 却 并 不 简单 ， 需 要 关注 
语言 相关 的 定 值 点 、 引 月 

1. 全 局 变 


定 值 点 与 引用 点 分 析 的 基础 
点 的 分 析 是 实现 数据 流 分 书 


论 与 技术 。 确 


实 ， 基 于 一 种 模 
F 多 现实 中 的 细节 问题 。 然 而 ， 对 于 一 门 实际 语言 而 言 ， 试 图 设计 


= 
时 


点 问题 。 


与 局 部 变量 不 同 ， 全 
局 变量 的 定 值 点 、 引 用 点 并 不 是 一 件 容 易 的 事 。 这 应 i 
数 调 用 都 可 能 引用 或 改变 全 局 变量 的 值 。 要 准确 分 析 全 
函数 的 调 


全 


析 过 程 、 


种 分 析 算 法 就 是 通常 所 说 的 过 程 间 数 据 流 分 析 。 事 实 上 ， 过 程 间 数 和 
函数 对 实 参 的 影响 提供 必要 的 决策 信息 。 不 过 ， 
下 两 个 方面 : 
异常 复杂 。 


变量 引用 、 
过 程 


名 


试 


定 值 的 


(2) 多 文件 编译 机 制 使 


完美 地 实现 过 程 间 数据 流 分 析 是 需要 付出 一 定 代 价 的 。 这 是 


只 有 


必 


的 基 而 


癌 语 兰 
型 语 互 


1， 通 常 涉及 的 绝 大 多 数 数据 流 问 题 都 是 


编译 技术 中 ， 关 于 定 值 点 、 引 用 点 的 讨论 通常 是 比较 精炼 的 ， 并 
讨论 定 值 点 、 引 用 点 的 分 析 是 相对 比较 容 


一 个 较 完 


的 问题 远 比 模型 语言 复杂 得 多 。 下 面 ， 来 谈 一 些 与 实际 


j 关 


和 人 AN 


问题 ， 同 时 


间 数 据 流 分 析 也 是 一 项 具有 挑战 怕 
(1) 当 源 语言 支持 函数 指针 之 类 的 语法 结构 时 ， 问 题 可 能 会 变 和 有 
分 析 不 得 不 在 链接 阶段 完成 。 


£3 


得 过 程 间 数 所 


纪 可 以 为 分 刷 


E 的 工程 ， 


玄 不 难 理 


解 ， 因 为 人 有 


基于 完整 的 调用 关系 图 才 可 能 分 书 


局 变量 的 定 值 点 、 引 用 点 可 以 散布 于 整个 程序 范围 内 。 因 此 ， 讨 论 


F 何 一 次 有 效 的 函 


局 变量 的 定 值 、 引 用 信息 ， 就 必须 分 
if 得 到 较为 精准 的 结 


果 。 这 


其 难度 主要 体现 


在 如 


外 流 分 析 不 仅 解决 了 全 


| 


局 ] 


项 目的 编译 过 程 。 


别名 


链接 器 将 多 个 obj 文人 


。 下 面 ， 笔 
[图 7-6 所 示 ， 这 个 C 语 


者 通过 


[a 


据 流 分 析 
的 影响 ， 
整个 项 目 有 


口 


y 


Cu 


无 法 


得 到 aa(0) 函 数 内 部 的 调用 关系 
个 全 局 的 概括 。 因 此 ， 也 只 有 链接 器 才 可 能 实现 


lj 译 对 过 程 


j 译 ac 和 b.c， 并 生成 相应 的 汇编 文件 。 然 后 ，1 
链接 成 一 个 可 执行 文件 。 


J 能 是 徒劳 的 。 例 如 ， 在 编译 a.c 时 ， 编 译 器 根本 不 可 和 


因 


链接 器 完成 的 ， 而 不 是 由 编译 器 完成 的 。 其 中 ， 最 主要 的 原因 
个 实例 来 分 析 多 文件 


为 过 程 间 数 据 流 分 析 
就 是 多 文件 编译 机 制 的 存 
间 数 据 流 分 析 提 出 的 
项 目 包含 ac、b.c 两 个 源 程序 文件 ， 右 列 则 i 
绝 大 多 数 C 编译 器 都 是 依据 这 个 过 程 完成 编译 、 链 接 的 。 首 先 ， 编 译 器 分 


kt 战 。 
羊 细 


述 了 这 个 


汇编 器 生成 对 应 的 obj 文件 。 


出 


因 


LL» 试图 


最 后 ， 由 


在 编译 阶段 实现 准确 的 过 程 


间 数 


区 


预测 aa0 函 数 对 全 局 变量 


。 在 整个 处 理 过 程 中 ， 只 有 链接 阶段 才能 大 


-二 


FE 的 过 程 间 数据 流 分 析 。 不 
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过 ，obj 文件 中 存储 的 是 二 进 制 机 器 码 及 重 定位 、 符 号 等 信息 ， 故 仅仅 依据 obj 文件 的 信 
息 ， 试 图 在 链接 器 中 实现 数据 流 分 析 是 非常 复杂 的 。 因 此 ， 一 些 商 用 编译 器 开发 商 自主 研发 
汇编 器 及 链接 器 的 一 个 重要 原因 就 是 试图 让 链接 器 可 以 从 一 些 由 编译 器 生成 的 格式 文件 中 获 
取 更 多 关于 输入 源 程序 的 信息 ， 而 不 仅仅 依赖 于 obj 文件 。 以 微软 的 编译 器 为 例 ， 它 提供 了 
一 个 “/GL” 选 项， 有 兴趣 的 读者 可 以 参阅 MSDN 相关 文档 ， 其 中 明确 说 明了 启用 全 程序 优 
化 《〈 即 过 程 间 优 化 ) 前 后 ， 生 成 的 obj 文件 是 完全 不 同 的 。 


a.c b.c 编译 、 链 接 过 程 
int a; int b; 
extern int b; extern int a; 
extern void aa(); | void aa(); 
main() 
a=l; 

aa(); b=2; 

} } 


图 7-6 多 文件 编译 示意 图 

鉴于 语言 的 特性 ，Neo Pascal 并 没有 考虑 过 程 间 数 据 流 分 析 ， 只 是 用 了 一 个 消极 的 策 
略 ， 除 了 普通 的 定 值 、 引 用 形式 之 外 ， 假 设 每 一 个 有 效 的 过 程 、 函 数 调用 点 都 可 能 对 全 局 变 
量 定 值 、 引 用 。 虽 然 这 种 处 理 方式 并 不 够 完美 ， 但 也 是 工程 领域 可 以 接受 的 。 

2 内藤 汇 编 

一 些 经典 程 序 设计 语言 都 支持 内 内 汇 编 机 制 ， 例 如 ，C、Pascal 等 。 从 表面 上 来 看 ， 内 
藤 汇 编 机 制 的 实现 似乎 是 非常 简单 的 ， 只 需 将 相应 的 汇编 源 代码 复制 到 目标 代码 中 即 可 。 不 
过 ， 事 实 却 远 比 想象 的 复杂 。Neo Pascal 的 处 理 方式 与 GCC 类 似 ， 即 编译 阶段 不 识别 内 符 
汇编 ， 而 直接 将 内 骨 汇 编 粘贴 到 目标 代码 中 。 换 句 话 说， 编译 器 根本 不 需要 关注 内 内 汇 编 的 
语法 与 语义 ， 而 是 统一 由 汇编 器 处 理 。 不 过 ， 相 应 的 问题 也 就 由 此 产生 了 ， 即 编译 器 如 何 估 
计 内 崔 汇 编 对 程序 变量 的 影响 。 事 实 上 ， 对 于 不 识别 内 典 汇 编 的 编译 器 来 说 ， 是 根本 不 可 能 
预计 内 航 汇 编 对 程序 变量 的 定 值 、 引 用 情况 的 。 在 GCC 中 ， 编 译 器 将 这 项 烦心 的 工作 交 由 
用 户 完 成 。 也 就 是 说 ， 用 户 以 参数 形式 显 式 说 明 当 前 内 髓 汇编 中 的 定 值 、 引 用 信息 ， 尤 其 是 
对 C 变量 的 影响 。 
虽然 这 种 处 理 方式 表面 上 看 起 来 并 不 完美 ， 但 也 不 失 为 一 种 高 效 的 解决 方案 。 编 译 器 只 
需 根据 用 户 的 参数 标记 定 值 、 引 用 信息 ， 即 使 内 髓 汇编 中 存在 额外 的 定 值 、 引 用 也 不 必 理 
会 。 如 果 因 此 产生 副作用 而 导致 优化 不 安全 ， 其 中 的 责任 完全 是 由 用 户 承 担 。 当 然 ， 不 同 的 
编译 器 对 内 藤 汇 编 的 处 理 方 式 是 不 尽 相 同 的 。 有 些 编译 器 可 能 会 在 编译 阶段 识别 与 分 析 内 插 
汇编 。 在 这 种 情况 下 ， 编 译 器 就 可 以 根据 得 到 的 汇编 源 代码 的 实际 情形 分 析 定 值 、 引 用 信 
息 ， 例 如 ，Delphi 就 采用 了 这 种 处 理 方式 。 
3. 指针 引用 
在 现代 编译 技术 中 ， 关 于 指针 引用 的 分 析 是 一 个 非常 复杂 的 话题 。 相 信 对 于 了 解 C 语言 
间 针 的 读者 来 说 ， 其 中 的 原因 不 必 多 作 解 释 了 。 事 实 上 ， 在 很 多 情况 下 ， 即 使 是 人 工分 析 指 
针 的 引用 关系 都 是 困难 重重 的 ， 更 何况 是 由 编译 器 来 完成 。 早 期 的 Pascal 规定 指针 所 指向 的 
对 象 只 能 是 动态 申请 的 ， 不 允许 使 用 “@ ”运算 符 对 普通 变量 取 地 址 。 这 样 做 的 目的 也 就 是 
为 了 便于 处 理 指 针 引 用 的 问题 。 在 这 种 情况 下 ， 编 译 器 不 必 关 注 指针 与 普通 变量 的 差异 ， 只 
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需 一 视 同 仁 地 分 析 定 值 、 引 用 信息 即 可 。 因 为 无 论 指 针 如 何 设 置 ， 它 指向 的 对 象 都 是 在 执行 
过 程 中 动态 申请 存储 空间 的 ， 因 此 不 可 能 影响 用 户 声 明 的 普通 变量 。 

如 果 语 言 提供 的 指针 机 制 比较 完善 ， 即 允许 指针 指向 普通 变量 。 那 么 ， 这 种 情况 下 ， 分 
析 指 针 引 用 或 可 能 引用 的 信息 是 非常 必要 的 。 在 数据 流 分 析 中 ， 指 针 处 理 的 复杂 性 主要 体现 
在 对 指针 的 间接 寻 址 上 。 例 如 : 


(GETADDR ,Lnull,P) 
(GETADDR ,JnulLP) 
(ASSIGN 4 ,1,null,@P) 


在 最 后 一 句 IR 中 ， 形 式 上 似乎 是 对 P 的 定 值 。 不 过 ， 由 于 结果 操作 数 是 对 P 的 间接 寻 址 ， 
所 以 其 实际 定 值 是 对 P 所 指向 的 变量 而 言 的 ， 而 不 是 了 本 身 。 反 而 这 句 IR 却 是 P 的 一 个 引 
用 点 ， 因 为 间接 寻 址 访问 依赖 P 所 存储 的 值 〈 即 所 指向 对 象 的 地 址 )。 那 么 ， 编 译 器 又 该 如 
何 确定 哪些 变量 可 能 被 P 引用 呢 ? 在 现代 编译 技术 中 ， 别 名 分 析 的 话题 已 经 并 不 陌生 了 ， 但 
是 ， 试 图 准确 分 析 这 个 集合 仍然 不 是 一 件 简单 的 事情 。 

与 指针 引用 类 似 ， 变 参 传递 同样 存在 间接 寻 址 的 问题 。 当 然 ， 试 图 分 析 变 参 引 用 对 实 参 
的 影响 可 能 比 指针 引用 的 分 析 更 为 复杂 。 变 参 引 用 不 但 需要 考虑 函数 体内 的 逻辑 ， 还 可 能 涉 
及 过 程 间 的 分 析 。 

这 个 问题 ， 一 些 研究 型 的 编译 器 通常 很 少 涉及 ， 即 使 是 商用 编译 器 的 实现 也 并 不 完 
美 。 出 于 实现 代价 的 考虑 ，Neo Pascal 并 没有 采用 精准 的 引用 分 析 策 略 来 解决 指针 引用 的 
问题 ， 而 是 采用 一 种 比较 保守 的 策略 。 例 如 ， 假 设 上 例 的 IR 序列 中 不 存在 其 他 的 取 址 及 
( 即 GETADDR 指令 ) 时 ， 试 图 精确 了 解 P 指向 的 目标 变量 就 必须 分 析 程序 的 控制 流 ， 
至 还 不 能 忽略 指针 之 间 赋 值 带 来 的 副作用 。 不 过 ， 在 不 考虑 “精确 ”的 情况 下 ， 这 个 问题 
可 能 就 不 难 解决 了 。 可 以 表 定 地 得 到 一 个 P 可 能 指向 的 目标 变量 集 (I，J)， 因 为 整个 IR 
序列 中 只 存在 对 I、J 的 取 址 操作 。 当 然 ， 由 于 指针 之 间 可 能 存在 赋值 ， 因 此 ， 安 全 且 保守 
的 做 法 就 是 假设 所 有 的 被 取 址 变量 对 于 任意 指针 都 是 有 效 的 。 在 上 例 中 ， 即 使 第 1 行 下 
的 结果 操作 数 不 是 P， 而 是 其 他 的 指针 变量 R， 依 然 不 会 影响 P 的 可 能 目标 变量 集 。 虽 然 
这 种 策略 并 不 激进 ， 但 它 却 得 到 了 许多 编译 器 设计 者 的 认可 。 甚 至 还 被 一 些 早期 的 商用 统 


7.4.2 定 值 点 、 引 用 点 分 析 的 相关 数据 结构 


在 分 析 源 代码 之 前 ， 本 小 节 将 介绍 几 个 与 定 值 、 引 用 相关 的 数据 结构 。 其 中 ， 有 些 数据 
结构 不 仅 涉及 数据 流 分 析 的 实现 ， 甚 至 贯穿 整个 优化 过 程 的 设计 。 

1.， 变量 映射 表 

Neo Pascal 的 数据 流 分 析 主 要 是 基于 人 迭代 思想 实现 的 。 在 优化 算法 的 实现 中 ， 将 大 量 涉 
及 位 向 量 〈 变 量 表 的 一 种 映射 形式 ) 的 迭代 。 不 过 ， 由 于 Neo Pascal 的 优化 算法 都 是 以 过 程 
为 单位 讨论 的 ， 一 个 过 程 可 能 涉及 的 变量 仅 为 全 局 变量 和 本 过 程 内 的 局 部 变量 ， 所 以 没有 必 
要 将 符号 表 内 的 所 有 变量 都 映射 成 位 向 量 形式 。 建 立 变量 映射 表 的 主要 目的 就 是 为 了 便于 使 
用 位 向 量 描述 变量 集合 。 变 量 映射 表 的 声明 形式 如 下 : 
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【声明 7-4】 


map<int,int> VarMap; 


在 分 析 每 个 过 程 时 ， 根 据 当前 过 程 的 信息 ， 从 符号 表 中 提取 出 当前 过 程 相 关 的 变量 集 
合 ， 主 要 包含 全 局 变量 及 当前 过 程 的 局 部 变量 ， 并 生成 相应 的 VarMap。 其 中 ， 第 1 个 整 型 
值 用 于 描述 变量 在 符号 表 中 的 位 序号 ， 而 第 2 个 整 型 值 则 用 以 描述 变量 在 新 构造 的 变量 集合 
中 的 位 序号 。 后 续 的 优化 算法 大 多 数 都 是 基于 该 变量 集合 讨论 的 ， 因 此 ，VarMap 是 一 个 非 
常 重要 的 数据 结构 。 
2. 定 值 集 、 引 用 集 

在 编译 技术 中 ， 定 值 点 、 引 用 点 的 问题 通常 是 基于 变量 讨论 的 。 所 谓 “ 定 值 集 ”就 是 用 
于 描述 变量 及 其 定 值 点 集合 的 数据 结构 。 在 Neo Pascal 中 ， 定 值 集 的 声明 形式 如 下 : 


【声明 7-5】 


map<string, vector<int>> VarDef; 


其 中 ， 前 者 的 字符 串 即 为 定 值 集 的 关键 字 。 实 际 上 ， 就 是 变量 名 的 一 种 符号 化 形式 ， 其 
萌 述 形式 为 “过 程 位 序号 $ 变 量 位 序号 ”。 例 如 ， 过 程 aa 和 其 过 程 内 的 局 部 变量 a 在 符号 表 
中 的 位 序号 分 别 为 2、5， 那 么 ，a 的 关键 字 就 是 “2$5 ”。 

Vector<int> 存 储 的 就 是 该 变量 的 所 有 定 值 点 ， 也 就 是 定 值 点 IR 在 m_Codes 中 的 位 序号 。 

所 谓 “ 引 用 集 ” 就 是 用 于 描述 变量 及 其 引用 点 集合 的 数据 结构 。 在 Neo Pascal 中 ， 引 用 
集 的 声明 形式 如 下 : 


【声明 7-6】 


map<string, vector<int>> VarAllUse; 


引用 和 集 的 数据 结构 与 定 值 数 是 完全 一 致 的 ， 不 再 痪 述 。 

3. 定 值 位 向 量 、 引 用 位 向 量 

前 面 介绍 了 定 值 集 、 引 用 集 的 基本 结构 。 这 里 再 引入 两 个 概念 : 定 值 位 向 量 、 引 用 位 问 
量 。 这 两 个 概念 是 基于 基本 块 讨论 的 ， 每 个 基本 块 都 有 一 个 定 值 位 向 量 和 一 个 引用 位 向 量 。 

所 谓 “ 位 向 量 ” 就 是 指向 量 中 的 每 个 元 素 都 是 一 个 位 《只 能 取 “0” 或 “1”)。 使 用 位 问 
量 而 不 是 集合 是 为 了 适应 迭代 算法 的 需要 。 

定 值 位 向 量 主要 是 应 用 位 向 量 的 形式 描述 所 属 基 本 块 中 变量 定 值 的 信息 。 在 某 些 应 用 场 
合 ， 相 比 定 值 的 位 置 来 说 ， 编 译 器 可 能 更 关注 的 是 在 某 个 基本 块 中 有 哪些 变量 被 定 值 了 ， 而 
不 关心 详细 的 定 值 位 置 。 最 典型 的 是 稍 后 将 谈 到 的 活跃 变量 分 析 。 通 常 ， 定 值 位 向 量 中 的 每 
个 位 元 素 都 与 VarMap 中 的 一 个 变量 关联 。 位 值 为 0，， 则 表示 相应 的 变量 在 该 定 值 位 向 量 所 
属 的 基本 块 中 没有 定 值 ， 否 则 表示 存在 定 值 或 可 能 定 值 。 
引用 位 向 量 与 定 值 位 向 量 的 结构 基本 一 致 ， 引 用 位 向 量 主 要 是 通过 位 向 量 的 形式 描述 所 
属 基本 块 中 变量 引用 的 信息 。 在 Neo Pascal 中 ， 这 两 个 位 向 量 都 是 隶属 于 CBasicBlock 结构 
的 ， 声 明 形 式 如 下 : 


【声明 7-7】 
struct CBasicBlock 
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CBits *Def:; // 定 值 位 向 量 
CBits *Use; // 引 用 位 向 量 


}; 
由 于 不 同 过 程 的 VarMap 的 个 数 是 不 同 的 ， 所 以 定 值 、 引 用 位 向 量 都 是 在 编译 过 程 中 动 
态 生成 。 注 意 ，CBits 是 笔者 设计 的 一 个 位 向 量 类 ， 同 时 ， 封 装 了 一 些 在 编译 器 设计 中 经 
常 涉及 的 位 向 量 操作 。 其 源 代码 的 实现 并 不 复杂 ， 读 者 可 以 自行 参考 阅读 ， 这 里 就 不 再 详 
细 列 出 。 
7.4.3 定 值 点 、 引 用 点 分 析 的 实现 


前 面 已 经 介绍 了 定 值 点 、 引 用 点 相关 的 一 些 基 本 概念 及 数据 结构 。 而 程序 7-2 的 目标 就 
是 获取 相关 过 程 的 定 值 集 、 引 用 集 、 基 本 块 定 值 位 向 量 、 基 本 块 引用 位 向 量 等 信息 。 


程序 7-2 DataFlowAnalysis.cpp 
1 void CDataFlowAnalysis::Def Use Analysis(int iProcIndex) 


2 { 
3 vector<int> RefVar; 
4 CBits InitBit(VarMap.size()); 
5 vector<CBasicBlock>* pBbs=&BasicBlock[iProcIndex]; 
6 for (int i=0;i<SymbolTbl.ProcInfoTbl[iProcIndex].m_Codes.size(;it+) /计算 RefVar 
了 { 
8 if (SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[il.m eOpType= =OpType::GETADDR) 
9 RefVar.push_ back(SymbolTbl.ProcInfoTbl[iProcIndex] 
10 .m Codes[il.m Opl.m iLink); 
11 } 
12 for(int i=0;i<pBbs->size();i++) 
13 { 
14 if (IpBbs->at(i).Def) 
15 delete pBbs->at(i).Def; 
16 pBbs->at(i).Def~new CBits(VarMap.size()); 
Ug if (IpBbs->at(i).Use) 
18 delete pBbs->at(i).Use; 
19 pBbs->at(i).Use=new CBits(VarMap.size()); 
20 } 
2 for(int i=0;i<pBbs->size();i++) 
2 { 
23 CBits Def(VarMap.size()); 
24 CBits Use(VarMap.size()); 
2 for(int j=pBbs->at(i).iStart;j<=pBbs->at(i).iEnd;j++) 
26 { 
2 IRCode* TmpIR=&SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[jl; 
28 Opti_Tbl* TmpOpti; 
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if (TmpIR->m eOpType<0) 
TmpOpti=SearchOptiTbl(OpType::TypeCast); 
else if (TmpIR->m eOpType>>4= =21) 
TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
else if (TmpIR->m eOpType>>4<21) 
TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType>>4<<4)); 
ff (TmpIR->m eOpType==OpType::CALL|TmpIR->m eOpType==OpType::GETPROCADDR) 
SymbolTbl.ProcInfoTbl[TmpIR->m Opl.m iLink].m bTmpUsed=true; 
if (TmpIR->m eOpType==OpType::CALL | TmpIR->m eOpType==OpType::CALLPTR) 
{ 
if (TmpIR->m eOpType!=OpType::CALL || 
SymbolTbl.ProcInfoTbl[TmpIR->m Opl.m iLink] 
.m_eFlag!=ProcInfo::Extern) 


vector<VarInfo>::iterator it=SymbolTbl.VarInfoTbl.begin(); 
for(;it!=SymbolTbl.VarInfoTbl.end();it++) 
{ 
if (it->m iProcIndex!=0) 
continue; 
if (SymbolTbl.IsTmpVar(it-SymbolTbl.VarInfoTbl.begin())) 
continue; 
OpInfo TmpOp; 
TmpOp.m iType=OpInfo::VAR; 
TmpOp.m iLink=it-SymbolTbl.VarInfoTbl.begin(); 
TmpOp.m bRef=false; 
RecordUse(VarMap,Use, Def,TmpOp,RefVar,j,iProcIndex); 
if (SymbolTbl.TypelInfoTbl[it->m iTypeLink] 
.m eDataType!=StoreType::T_ PROC && 
SymbolTbl.TypeInfoTbl[lit->m iTypeLink] 
.m_ eDataType!=StoreType::T_FUNOC) 
RecordDef{VarMap,Use,Def, TmpOp,RefVar,j,iProcIndex); 


} 
if (TmpOptil=NULL && TmpOpti->eExpType!=Opti_Tbl::None) 
{ 

if (TmpIR->m eOpType= =OpType::ASM) 


人 
1 


for(int k=TmpIR->m Op2.m iLink;k<=TmpIR->m Rslt.m iLink;k++) 
OpInfo TmpOp; 
TmpOp.m iType=OpInfo::VAR; 
TmpOp.m iLink=SymbolTbl.AsmParaTbl[k].m iLink; 
TmpOp.m bRef=false; 
Switch (SymbolTbl.AsmParaTbl[k].flag) 
{ 
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We case AsmPara::RW: 
76 RecordUse(VarMap,Use, Def,TmpOp,RefVar,j,iProcIndex); 
WY RecordDef(VarMap,Use,Def,TmpOp,RefVar,j,iProcIndex); 
78 break:; 
79 case AsmPara::W: 
80 RecordDef(VarMap,Use,Def,TmpOp,RefVar,j,iProcIndex); 
81 break; 
82 case AsmPara::R: 
83 RecordUse(VarMap,Use, Def,TmpOp,RefVar,j,iProcIndex); 
84 break; 
85 } 
86 } 
87 continue; 
88 } 
89 if (TmpIR->m Op2.m iType= =OpInfo::VAR ) 
90 { 
91 RecordUse(VarMap,Use,Def,TmpIR->m Op2,RefVar,j,iProcIndex); 
9 } 
93 if (TmpIR->m Opl.m iType= =OpInfo::VAR ) 
94 { 
95 RecordUse(VarMap,Use,Def,TmpIR->m Opl1,RefVar,j,iProcIndex); 
96 if (TmpIR->m eOpType==OpType::PARA && SymbolTbl.VarInfoTbl 
Sm [TmpIR->m Rslt.m iLink].m bRef) 
98 RecordDef(VarMap,Use,Def,TmpIR->m Opl,RefVar,j,iProcIndex); 
99 } 
100 if (TmpIR->m eOpType!=OpType::PARA && 
101 TmpIR->m Rslt.m iType= =OpInfo::VAR ) 
102 { 
103 RecordDef(VarMap,Use, Def,TmpIR->m Rslt,RefVar,j,iProcIndex); 
104 } 
105 } 
106 } 
107 pBbs->at(i).Def->copy(&De?f); 
108 pBbs->at(i).Use->copy(&Use); 
109 } 
110 for(map<string,vector<int>>::iterator it=VarDef.begin();it!=VarDef.end();it++) 
111 { 
112 sort(it->second.begin(),it->second.end()); 
113 } 
114 for(map<string,vector<int>>::iterator it=VarAllUse.begin();it!=VarAllUse.end();it++) 
115 { 
116 sort(it->second.begin(),it->second.end()); 
117 } 
118 } 


第 5 行 : 获取 当前 过 程 的 基本 块 信息 。 
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第 6 一 11 行 : 遍历 IR 序列 ， 判 断 IR 操作 数 是 否 为 GETADDR， 如 果 为 真 , 则 表示 Op1 


所 指 的 变量 被 取 地 址 。 这 种 情 


第 21 一 109 行 : 
第 23、24 行 : 
第 25 一 106 行 : 
第 29 一 34 行 : 
第 35、36 行 
一 项 


遍历 过 程 


获取 处 理 方案 。 


的 原因 ， 笔 者 先前 已 作 相 关 说 明 。 
第 37 一 62 
程序 的 含义 非常 明确 


行 ， 主 要 处 理 过程 调 朋 


E 常 重要 的 工作 。 编 译 器 借助 于 过 程 引 
“不 可 到 达 过 程 ” 就 是 指 那些 永远 无 法 被 调用 的 过 程 。 
被 取 地 址 ， 那 么 ， 这 个 过 程 必定 是 不 可 到 达 过 程 。 
过 程 生成 目标 代码 。 当 然 ， 在 多 文 伯 
过 程 是 相当 复杂 的 。 一 般 来 说 ， 不 可 到 达 过 程 删除 必须 是 基于 过 程 


IR 对 
， 即 假设 被 调用 过 程 将 对 所 有 的 全 


三 


里 o 


: 如 果 操 作 符 为 CALL 或 GETPROCADDR， 则 设置 过 程 引 用 标志 。 
可 以 轻松 地 识别 不 可 到 达 的 过 程 


j 标 


位 向 量 。 


如 果 一 个 过 程 既 没有 被 调用 ， 也 没有 
对 于 编译 器 而 言 ， 
编译 时 ， 由 于 外 部 过 程 的 原因 ，; 


况 下 ， 则 将 该 变量 的 位 序号 置 入 RefVar 中 。 
第 12 一 20 行 : 初始 化 各 基本 块 的 定 值 位 向 量 、 引 
的 基本 块 集 。 
初始 化 Def、Use 位 向 

遍历 基本 块 内 IR 列表 。 


这 是 


。 所 谓 


通常 不 需要 为 不 可 到 达 
式 图 确定 一 个 不 可 到 达 
间 分 析 进 行 讨论 的 。 详 细 


2 


种 处 理 并 不 精确 ， 却 是 最 安全 的 策略 。 当 然 ， 读 者 需要 关注 
局 变量 的 定 
其 他 源 文件 的 过 程 ， 而 是 指 那 些 来 自 二 进 和 


(1) 调用 外 部 过 程 是 不 影响 全 


上 
地 全 局 变量 带 来 任何 副 作 
完成 这 一 判定 。 


]， 因 


此 ， 这 种 过 程 


| 库 文件 的 过 程 。 
调用 不 是 设计 


局 变量 定 值 、 引 用 所 产生 的 
局 变量 定 值 、 引 
E 几 种 特殊 的 情 
二、 引用 的 。 这 里 的 外 部 过 程 并 不 是 指 那 些 来 
由 于 这 种 乡 
者 所 关注 的 。 第 37 行 主要 就 是 


万 


下 作 
都 产 
部: 


] 。 实 际 上 ， 
生 副 作用 。 这 


a 


CE 


部 过 程 不 可 能 给 本 


(2) 调用 过 程 并 不 会 给 临时 全 局 变量 带 来 副作用 。 由 于 临时 全 局 变量 是 由 编译 器 自动 生 
成 的 ， 用 户 程 序 是 无 法 访问 的 ， 因 此 ， 过 程 的 调用 并 不 会 影响 临时 全 局 变量 。 第 48 行 主 要 
就 是 完成 这 一 判定 。 

第 54 行 : 调用 RecordUse 函数 ， 登 记 引 用 点 信息 。 稍 后 将 详细 分 析 RecordUse 函数 。 

第 59 行 : 调用 RecordDef 函数 ， 登 记 定 值 点 信息 。 稍 后 将 详细 分 析 RecordDef 函数 。 


第 65 一 88 行 : 处 理 内 髓 汇编 的 定 值 点 、 引 用 点 
[ 编 的 参数 信息 ， 根 据 参 数 信息 ， 登 记 定 值 点 、 引 用 点 。 当 


第 67 一 86 行 : 遍历 内 髓 》 


flag 为 RW 时 ， 表 示 参 数 所 示 变 量 在 内 网 汇编 中 被 定 值 且 引用 。 


所 示 变 量 在 内 鸯 汇编 
第 89 一 92 行 : Op2 所 示 的 变量 


第 93 一 99 行 : Opl 所 示 的 变量 被 引用 ， 登 记 变 量 引 用 点 


当 flag 为 W 时 ， 表 示 参 数 


中 被 定 值 。 当 flag 为 R 时 ， 表 示 参 数 所 示 变 量 在 内 散 汇 编 中 被 引用 。 
被 引用 ， 登 记 变量 引用 点 信息 。 


生 晴 
中 ,Do 


县。 有 一 种 特殊 的 情况 不 能 


忽视 ， 那 就 是 变 参 传递 。 如 果 有 是 变 参 传 递 指令 ， 该 民 也 将 是 Opl 所 示 变 量 的 定 值 点 。 
第 96 一 98 行 : 主要 用 于 判断 当前 人 是 否 为 变 参 传递 ， 为 真 则 登记 变量 定 值 集 。 


第 100 一 104 行 : Rslt 所 示 的 变 
跃 过 即 可 。 

第 107、108 行 : 将 Def、Use 位 向 量 复 
算法 使 用 。 


县 


是 


a 


被 定 值 ， 登 记 变 量 定 值 点 


言 息 。 当 前 IR 为 传 参 指令 时 


第 110 一 113 行 : 将 每 个 


变量 的 定 值 集 
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判 到 基本 块 的 Def、 


于 


盟 性 中 ， 以 便 后 续 优 化 


霹 


Use 


按 从 小 到 大 的 顺序 排序 ， 便 于 后 续 应 用 。 
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第 114 一 118 行 : 将 每 个 变量 的 引用 集 按 从 小 到 大 的 顺序 排序 ， 便 于 后 续 应 用 。 
最 后 ， 再 来 看 看 RecordDef、RecordUse 函数 的 实现 。 


程序 7-3 DataFlowAnalysis.cpp 
1 void CDataFlowAnalysis::RecordDeftmap<int,int>VarMap,CBits &Use,CBits &Def,OpInfo Op, 
2 vector<int> RefVar,int iPos,int iProcIndex) 
” | 
4 if (IOp.m bRef) 
5 { 
6 Def.set(VarMap[Op.m_iLink]); 
网 VarDefUse(VarDef,Op.m iLink,iPos,iProcIndex); 
8 } 
9 else 
10 { 
11 VarDefUse(VarAllUse,Op.m iLink,iPos,iProcIndex); 
j 史 if (IDef.value(VarMap[Op.m iLink])) 
13 Use.set(VarMap[Op.m iLink)]); 
14 for(int p=0;p<RefVar.size();p++) 
5 { 
16 Def.set(VarMap[RefvVar.at(p)]); 
17 VarDefUse(VarDetf,RefVar.at(p),iPos,iProcIndex); 
18 } 
19 } 
20 } 


第 4 行 : 判断 Op 是 否 为 间接 寻 址 操作 数 。 

第 5 一 8 行 : 如 果 操 作 数 不 是 间接 寻 址 ， 则 主要 完成 如 下 几 项 工作 ; 

(1) 设置 Def 位 向 量 。 

(2) 调用 VarDefUse 设置 变量 定 值 集 。 实 际 上 ，VarDefUse 函数 是 根据 引用 的 参数 而 定 
的 ， 并 不 区 分 设置 的 是 VarAllUse 还 是 VarDef。 

第 10 一 19 行 : 如 果 操 作 数 是 间接 寻 址 ， 则 主要 完成 如 下 几 项 工作 ; 

(1) 由 于 操作 数 是 间接 寻 址 ， 所 以 操作 数 本 身 只 是 引用 ， 而 间接 寻 址 的 目标 变量 才 是 可 
能 被 定 值 。 因 此 ， 调 用 VarDefUse 设置 变量 引用 集 。 

(2) 设置 Use 位 向 量 。 注 意 ， 如 果 在 一 个 基本 块 内 ， 某 一 个 变量 引用 之 前 存在 对 该 变量 
的 定 值 ， 那 么 ， 这 样 的 引用 并 不 是 编译 器 所 关心 的 。 

(3) 根据 RefVar 集合 ， 调 用 VarDefUse 设置 变量 定 值 集 。Refvar 集合 中 的 成 员 都 是 被 
指针 引用 的 变量 。 根 据 先前 讨论 的 安全 策略 ， 这 里 假设 间接 寻 址 会 对 RefVar 中 所 有 的 变量 
产生 副作用 。 


程序 7-4 DataFlowAnalysis.cpp 
1 void CDataFlowAnalysis::RecordUse(map<int,int>VarMap,CBits &Use,CBits &Def,OpInfo Op, 
之 Vector<int> RefVar,int iPos,int iProcIndex) 
3 { 
4 VarDefUse(VarAllUse,Op.m iLink,iPos,iProcIndex); 
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if (!Def.value(VarMap[Op.m iLink])) 


{ 


Use.set(VarMap[Op.m iLink)]); 


} 
if (Op.m bRef) 


{ 


for(int p=0;p<RefVar.size();p++) 


{ 


Use.set(VarMap[RefVar.at(p)]); 


VarDefUse(VarAllUse,RefVar.at(p),iPos,iProcIndex); 


第 4 行 : 调用 VarDefUse 设置 变量 引用 集 。 
第 5 一 8 行 : 设置 Use 位 向 量 。 
第 9 一 17 行 : 如 果 Op 是 间接 寻 址 操作 数 ， 则 根据 RefVar 集合 ， 调 用 VarDefUse 设置 变 


量 定 值 集 。RefVar 集合 中 的 成 员 都 是 被 指针 引 
设 间 接 寻 址 会 对 Refvar 中 所 有 的 变量 产生 晶 

至 此 ， 笔 者 已 经 详细 剖析 了 定 值 点 、 引 
据 流 分 析 、 优 化 算法 的 实现 基础 。 团 于 篇 幅 ， 
Neo Pascal 编译 器 也 没有 对 过 程 间 数 据 流 作 深入 分 析 ， 因 此 无 法 得 到 更 准确 的 结果 。 


活跃 变量 分 析 的 实现 


活跃 变量 分 析 是 数据 流 分 
口 之 后 的 活跃 变量 集 。 


7.4.4 


出 各 基本 块 


LH 
LI 


作用。 


] 的 变量 。 根 据 先前 讨论 的 安全 策略 ， 这 里 假 


j 点 分 析 的 外 


的 另 一 个 重要 问题 。 
前 面 ， 已 经 详细 讲述 了 


法 实现 。 定 值 点 、 引 用 点 是 后 续 数 
笔者 无 法 对 该 算法 作 更 深入 的 阐述 。 另 外 ， 


简 而 言 之 ， 活 跃 变量 分 析 的 目 


的 就 是 求 
9 关 活 跃 变 量 分 析 的 基本 思想 及 


相关 理论 。 在 本 小 节 中 ， 将 关注 活跃 变量 分 析 算法 的 设计 与 实现 。 


式 手工 求解 


三 | 


程 ， 可 能 更 
先 来 谈 谈 活跃 3 
并 没有 为 其 单独 设置 章节 。 


out、def、use。 为 了 节省 空间 且 便 了 
Pascal 中 ， 它 们 是 隶属 于 CBasicBlock 类 的 ， 有 具体 声 明 


事实 上 ， 活 跃 变量 分 析 算 法 就 是 利用 数据 流 方程 求解 的 过 程 。 


活跃 变量 的 过 程 就 是 算法 设计 的 基础 。 读 者 不 妨 再 次 参阅 例 7-1 
了 助 于 理解 算法 设计 的 思想 。 


在 例 7-1 中 ， 应 用 迭代 方 
详细 的 求解 过 


量 分 析 的 相关 数据 结构 。 由 于 算法 的 数据 结构 较 少 且 比 较 简单 ， 故 笔者 


【声明 7-8】 
struct CBasicBlock 


{ 
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CBits *Def: 
CBits *Use; 
CBits *InSet; 
CBits *OutSet; 


在 活跃 变量 分 析 中 ， 主 要 涉及 四 个 基于 基本 块 的 集合 ， 即 in、 
F 实现 ， 通 常 使 用 位 向 量 来 描述 这 四 个 集合 。 在 Neo 


// 定 值 位 向 量 
// 引 用 位 向 量 
// 入 口 位 向 量 
// 出 口 位 向 量 


攻 式 如 下 : 
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}; 
其 中 ，Def、Use 位 向 量 是 由 先前 的 Def Use_Analysis 函数 分 析 得 到 的 ， 因 此 ， 这 里 就 不 必 
关注 了 。 而 本 小 节 的 目标 就 是 基于 流 图 计算 InSet、OutSet 位 向 量 。 下 面 ， 就 来 看 看 详细 的 
算法 实现 。 


程序 7-5 DataFlowAnalysis.cpp 


1 void CDataFlowAnalysis::In Out Analysis(int iProcIndex) 
2 | 
3 CBits InitBit(VarMap.size()); 
4 vector<CBasicBlock>* pBbs=&BasicBlock[iProcIndex]; 
5 bool bChange=true; 
6 CBits NewInSet(VarMap.size()); 
7 for(int 1=0;i<pBbs->size();i++) 
8 { 
9 1f (!IpBbs->at(i).InSet) 
10 delete pBbs->at(i).InSet; 
11 if (IpBbs->at(i).OutSet) 
12 delete pBbs->at(1).OutSet; 
13 pBbs->at(i).InSet=new CBits(InitBit); 
14 pBbs->at(i).OutSet=new CBits(InitBit); 
15 } 
16 while (bChange) 
Uy { 
18 bChange=false; 
19 for (int 1=0;i<pBbs->size();i+t+) 
20 { 
2 CBits Tmp(VarMap.size()); 
2 for (int Jj=0;j<pBbs->at(i).DownFlow.size();j++) 
23 { 
24 Tmp.Or(pBbs->at(pBbs->at(i).DownFlow[)]).InSet); 
25 } 
26 pBbs->at(i).OutSet->copy(&Tmp); 
2 Tmp.Sub(pBbs->at(D).Def); 
28 Tmp.Or(pBbs->at(i).Use); 
29 NewlInSet.copy(&Tmp); 
30 if(!(NewInSet= =*(pBbs->at(i).InSet))) 
31 { 
32 bChange=true; 
33 pBbs->at(i).InSet->copy(&NewInSet); 
34 } 
39 } 
36 } 
3 } 


313 


B ER i 
辐 、 编译 器 设计 之 路 
ee 


第 4 行 : 获取 当前 过 程 的 基本 块 信息 。 


第 7 一 15 行 : 初始 化 各 基本 块 的 InSet、OutSet 位 向 量 为 空 集 。 


第 16 一 36 行 : bChange 为 迭代 结束 的 标志 。 


两 次 迭代 的 过 程 中 ， 各 基本 块 的 InSet 位 所 


三 
里 


在 这 个 算法 
都 没有 发 生变 化 


中 ， 途 代 结 束 的 条 件 就 是 前 后 
。 实 际 上 ， 这 种 情况 表示 和 迭代 


已 经 进入 了 稳定 状态 ， 而 这 个 稳定 状态 就 是 所 需要 的 最 


义 了 。 


终结 


四 
谷口 不 


村 


第 18 行 : 进入 一 次 求解 过 程 之 前 ， 


E 置 bChange 标志 。 


即 可 终止 。 


bChange 标志 ， 则 表示 当前 状态 已 稳定 ， 从 代 
第 19 一 35 行 : 遍历 各 基本 块 ， 依 次 计 入 


计算 当前 基本 块 的 OutSet， 
out[s] = Uin[i] 
计算 当前 基本 块 的 InSet， 


第 22 一 26 行 : 


第 27 一 29 行 : 


第 30~34 行 : 


求 得 
化 ， 即 未 进入 稳定 状况 ， 迁 代 不 能 终止 。 


里 


读者 可 能 会 觉得 这 个 算法 的 逻辑 比较 蜀 涩 。 


3 


in[s] = (out[s]— 
判断 新 求 得 的 InSet 与 基本 块 的 原 InSet 是 否 相 
的 InSet 作为 基本 块 的 InSet， 并 置 bChange 为 ttue， 表 示 本 次 迭代 过 程 中 状态 发 生 了 变 


确实 如 此 ， 在 


def[s]) Uuse[s] 


， 因 此 ， 就 没有 继续 迭代 的 意 


若 求解 过 程 中 没有 改变 


各 基本 块 的 InSet、OutSet。 
依据 就 是 如 下 数据 流 公式 : 
(其 中 i 是 s 的 后 继 基本 块 ) 
依据 就 是 如 下 数据 流 公式 : 


和 AE 


若 不 相等 ， 则 使 用 新 


Ts 


然 算法 的 规模 很 小 ， 但 是 要 深入 理解 其 实现 却 并 不 容易 。 在 分 析 代 码 的 过 程 中 ， 部 分 


没有 递归 广泛 ， 因 此 ， 对 迭代 算法 的 思想 
7.4.5 ud 链 、du 链 分 析 的 实现 


分 析 算 法 而 言 ，ud 链 、du 链 分 析 可 能 稍 复杂 。 
1. du 链 分 析 算法 
du 链 分 析 算 法 的 基本 步 又 是 : 


常 程 


序 设 计 中 ， 和 迭代 的 应 用 可 能 


比较 生 玻 也 不 足 为 奇 。 


在 Neo Pascal 中 ， 许 多 优化 算法 都 是 基于 ud 链 、du 链 信息 实现 的 。 相 比 先前 的 数据 流 


1) 在 基本 块 内 ， 分 析 当 前 IR 之 后 是 否 存在 其 他 IR 对 当前 变量 的 定 值 。 如 果 存 在 ， 则 


du 链 仅 包含 两 条 定 值 IR 之 间 的 对 当前 变量 的 所 有 引 


行 步骤 2。 
2) 沿 流 图 
果 查 找 成 功 ， 贝 


du 链 分 析 算 法 的 关键 就 在 于 搜索 流 图 


向 下 流 的 边 ， 查 找 各 条 可 能 路 径 中 最 先 
| 将 查找 该 由 过 程 中 所 经 过 的 所 有 对 当前 变量 的 引 
找 失 败 ， 则 将 整个 查找 路 径 中 的 所 有 对 当前 变量 引用 的 IR 位 置 加 入 
的 可 能 路 径 。 


用 点 ， 


并 结束 分 析 。 如 果 不 存在 ， 则 执 


上 时 现 的 对 当前 变量 定 值 的 IR 位 置 。 如 


点 都 加 入 du 链 。 如 果 查 


du 链 中 。 


深度 遍历 的 一 
节 。 设 计 搜 索 流 

流 图 并 不 是 DAG 结构 ， 在 很 多 情况 下 ， 
意 环 状 结构 的 处 理 ， 避 免 进入 循环 搜索 。 在 


特殊 应 用 。 


前 ， 依 据 项 点 集合 判定 该 结 点 是 否 
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对 于 不 熟悉 图 深度 遍 
图 路 径 算 法 时 ， 有 个 细节 值得 注意 ， 那 就 是 环 路 的 处 理 。 


历 入 


流 图 


中 可 能 出 现 


实际 上 ， 搜 索 流 图 路 径 的 算法 是 图 
法 的 读者 ， 建 议 阅 读数 据 结构 相关 章 


向 环 。 路 径 搜 索 算法 应 该 注 


图 深度 遍历 算法 中 ， 通 常 是 借助 于 一 个 顶点 集合 
来 避免 结 点 的 重复 访问 。 即 把 已 访问 过 的 结 点 存放 到 一 个 顶点 集合 中 ， 


每 次 访问 一 个 结 点 


已 访问 。 这 里 ， 值 得 兴 


意 的 是 ， 在 ud 链 、du 链 分 析 中 ， 
起 始 结 点 〈( 即 当前 IR 所 在 的 结 点 ) 是 需要 特殊 处 理 的 。 与 其 他 结 点 不 同 ， 起 始 结 点 并 不 是 
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在 第 一 次 访问 时 ， 就 将 其 加 入 顶点 集合 的 。 其 中 最 主要 的 原因 就 是 


流 图 可 
条 流向 


起 始 结 


能 存在 类 似 于 图 7-7 所 示 的 特殊 环 路 ， 即 某 一 个 结 点 存在 一 
自身 的 边 。 以 图 7-7 为 例 ， 讨 论 P2 处 关于 i 的 du 链 。 如 果 
点 的 处 理 与 其 他 结 点 一 样 ， 那 么 ， 搜 索 算法 首次 访问 起 始 结 


人 


点 时 ， 


7 


E 将 其 加 入 项 点 集合 ， 再 依据 du 链 分 析 算 法 从 当前 下 所 


P1: jeitl 


P2: i<2 


在 位 置 〈 即 P2) 开始 向 下 搜索 。 显 然 ， 本 次 访问 并 不 会 涉及 P1 处 图 7-7 ”特殊 的 环 路 


的 了 及。 当 P2 之 后 不 存在 任何 对 i 的 定 值 点 时 ，du 链 分 析 算 法 就 沿 


流 图 向 下 流 的 边 搜 索 可 能 的 路 径 。 此 时 ， 搜 索 算法 将 第 二 次 访问 到 起 始 结 点 ， 但 是 该 结 点 已 


存在 于 项 点 集合 中 ， 即 表明 该 结 点 已 被 访问 过 了 ， 因 此 就 直接 略 过 了 。 至 此 ， 该 路 径 也 就 搜 


索 完毕 了 


o 


不 过 ， 整 个 过 程 中 始终 没有 处 理 P1 处 的 有。 根据 流 图 所 示 ， 显 


然 P2 处 对 i 的 定 


值 是 可 以 到 达 P1 的 。 最 简单 的 解决 方法 就 是 在 第 二 次 访问 起 始 结 点 时 ， 将 其 加 入 顶点 集 
合 。 下 面 将 详细 分 析 du 链 分 析 算 法 的 源 代码 实现 。 


程序 7-6 DataFlowAnalysis.cpp 
vector<int> CDataFlowAnalysis::GetDu(int 1Var,int iBb,int iStart,int iProcIndex) 


{ 


vector<int> tmp; 
int LiEnd; 
if (bHasVisit.find(iBb)!=bHasVisit.end()) 
return tmp; 
else 
{ 
if (bFirst) 
bFirst=false; 
else 
bHasVisit.insert(iBb); 
} 
i=BackwardHasDef(iVar,iStart+1,CurrentBasicBlock->at(iBb).iEnd,iProcIndex); 
iEnd=i= =-1?CurrentBasicBlock->at(iBb).iEnd:i; 
vector<int> TmpDu=VarAllUse[itos(iProcIndex)+"$"+itos(iVar)]; 
for(int j=0;j<TmpDu.size();j++) 


{ 
if (iStart<TmpDu[)] && TImpDu[j]<=iEng) 
tmp.push_back(TmpDu[j)); 
} 
if (1!=-1) 
{ 
return tmp; 
} 
else 
{ 


for(int j=0;j<CurrentBasicBlock->at(iBb).DownFlow.size();j++) 


{ 


int 二 CurrentBasicBlock->at(GBb).DownFlow[]; 
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39 } 

36 } 

37 return tmp; 
38 } 


第 $、 0 行 : 尖 
其 声明 形式 如 下 : 


【声明 7-9】 


vector<int> DownFlowDu=GetDu(iVar,i,CurrentBasicBlock->at(i) 
.1Start-1,iProcIndex); 


if (IDownFlowDu.empty()) 
tmp.insert(tmp.end(),DownFlowDu.begin(),DownFlowDu.end()); 


| 撩 [当前 基 


set<int> bHasVisit; 


如 果 当 前 基本 块 的 位 序号 


革 本 块 是 否 已 访问 。 


已 存在 于 bHasVisit 


直 。 如 


8 一 13 行 : 将 当前 
时， 用 于 满足 起 始 基本 块 特殊 处 理 的 需要 。 
了 J: 调用 BackwardHasDef 分 析 当 前 基本 块 内 自 
果 存 在 ，BackwardHasDef 将 返回 该 定 值 点 的 位 置 ， 


BackwardHasDef 函数 的 实现 稍 后 详解 。 


第 15~21 行 : 如 果 il=-1， 即 当前 基本 块 内 自 iStart 之 后 有 
将 两 条 IR 之 间 所 有 关于 当前 变量 


值 ， 那 么 ， 


块 内 自 iStart 之 后 所 有 关于 当 


第 22 一 25 行 : 


第 28 一 35 行 : 


始 的 。 


举 个 简 


a 的 定 值 是 不 可 能 


沿 流 图 向 下 边 搜 索 可 色 
tmp 向 量 中 。 值 得 注意 的 是 第 31 行 递 归 调 用 语 
要 在 CurrentBasicBlock->at(i).iStart 
理 的 特殊 需要 。 在 起 始 基本 块 中 ， 
的 例子 ， 讨 论 a<a+l 中 a 
1 达 本 名 IR 


其 中 ，bHasVisit 即 为 先前 讨论 的 顶点 集合 


基本 块 的 位 序号 加 入 bHasVisit 集合 


iStart 之 后 是 否 有 其 


Pp。 其 中 ,bFirst 


PF， 即 表 示 该 基本 块 已 被 访问 ， 故 返回 即 可 。 


是 一 个 布尔 变 


他 IR 对 当前 


和 前 变量 的 引用 都 加 入 tmp 向 量 中 。 
如 果 it=-1， 则 无 需 沿 流 图 向 下 边 
EE 的 路 径 ， 


搜索 引 


di 


BackwardHasDef 函数 搜索 当前 引用 点 集合 时 ， 


起 始 基 本 块 外 ， 其 他 基本 块 却 无 需 考虑 这 些 特殊 处 理 。 


里 不 得 不 预 减 1。 


下 面 来 看 BackwardHasDef 的 源 代码 实现 。 


程序 7-7 DataFlowAnalysis.cpp 


{ 


OU 做 OF 
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vector<int> tmp; 
map<string,vector<int>>::iterator it=VarDef.find(itos(iProcIndex)+"$"+itos(iVar)); 
if (t= =VarDetf.end() || iStart>iEnd) 

return -1; 


1? 原因 很 笛 


的 引用 都 加 入 tmp 向 量 


搜索 可 能 的 路 径 ， 返 
并 将 搜索 过 程 中 求 得 的 引用 点 集合 加 入 
名 。 有 读者 可 能 会 问 : 为 什么 第 3 个 实 参 需 


商 单 ， 主 要 是 为 了 适应 当前 代 处 


口 
否则 返回 -1。 关 于 


其 他 IR 对 当前 变量 进行 定 


。 和 否则 ， 将 当前 基本 


回 tmp 即 可 。 


是 从 当前 及 之 后 开始 的 ， 而 不 是 从 当前 天 开 


1 du 链 时 ， 在 不 考虑 
FP 对 a 的 引用 点 的 。 因 此 ， 在 第 


为 了 兼 


2 


循环 的 情况 下 ， 可 以 断定 对 


14 行 中 ， 调 用 


第 2 个 参数 是 iStart+1， 而 不 是 iStart。 但 除了 
BackwardHasDef 函数 ， 这 


int CDataFlowAnalysis::BackwardHasDef(int 1Var,int iStart,int iEnd,int iProcIndex) 
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又 else 

8 

9 int i; 

10 for(i=0;i<it->second.size();i++) 
11 { 

12 if (it->second[i]>iEnd) 
13 return -1; 

14 if (it->second[i]>=iStart && it->second[i]<=iEnd) 
15 break; 

16 } 

J if (1!=it->second.size()) 

18 return it->second[i]; 

19 else 

20 return —1; 

21 } 

2 } 


第 4 行 : 从 VarDef 中 获取 关于 给 定 变 量 的 定 值 集 。 


第 5 行 : 如 果 给 定 变量 的 定 值 自 


失败 。 


第 10 一 16 行 : 检索 给 定 范围 内 的 定 值 点 。 注 意 ， 定 值 集 是 按 IR 的 位 序号 升序 排列 的 ， 


这 是 由 定 值 、 引 用 点 分 析 算 法 处 理 的 。 因 此 ， 
第 17 一 21 行 : 返回 检索 结果 。 如 果 检 索 成 功 ， 则 返回 定 值 点 信息 ， 否 则 返回 -1。 


2. ud 链 分 析 算 法 


ud 链 分 析 算法 的 基本 步骤 是 : 


为 空 或 者 给 定 检索 范 


围 为 空 ， 则 返回 -1， 表 示 检 索 


(1) 在 基本 块 内 ， 分 析 当 前 


IR 之 前 是 否 存在 其 他 IR 对 当前 变量 8 
ud 链 仅 包含 该 定 值 点 ， 并 结束 分 析 。 如 果 不 存在 ， 则 执行 步骤 2。 


算法 的 实现 就 相对 简单 。 


的 定 值 。 如 果 存 在 ， 则 


(2) 沿 流 图 向 上 流 的 边 查 找 各 条 可 能 路 径 中 最 后 出 现 的 对 当前 变量 定 值 的 IR 位 置 。 如 


果 查 找 成 功 ， 则 将 该 定 值 点 加 入 ud 链 。 如 果 碍 找 失 败 ， 则 不 做 任何 处 理 。 

这 里 ， 主 要 讨论 ud 链 分 析 算法 在 编译 器 设计 中 的 一 个 特殊 应 用 ， 即 判定 变量 使 用 前 是 
否 初 始 化 的 问题 。 在 大 多 数 语言 中 ， 关 于 变量 使 
确 的 规定 。 在 实际 编程 中 ， 程 序 员 应 该 杜绝 


故此 类 异常 是 随机 的 ， 这 是 非常 
告 而 已 ， 却 不 能 强制 禁止 ， 除 非 语 言 有 明确 
要 给 出 显 式 的 警告 或 者 其 他 提示 。 


须 得 到 精准 的 分 析 结 果 ， 否 则 可 


能 影响 编译 J 


FE 确 性 。 


前 是 否 必 须 初始 化 的 问题 ， 并 没有 提出 明 
比 类 情形 的 发 生 。 由 于 各 种 编译 器 的 实现 差异 ， 
上 5， 编译 器 最 多 只 能 对 这 类 现象 给 出 语义 警 
的 约定 。 当 然 ， 并 不 要 求 编译 器 对 此 类 问题 一 定 
事实 上 ， 有 些 编译 器 对 此 并 不 关注 。 不 过 ， 数 据 流 分 析 必 


严格 地 说 ， 变 量 使 用 前 未 初始 化 的 问题 可 以 归 入 语义 分 析 中 讨论 。 但 是 ， 在 语义 分 析 阶 


段 ， 编 译 器 试图 判定 输入 程序 是 否 存在 这 类 情形 是 
就 是 在 ud 链 分 析 算 法 中 实现 。 那 么 ， 如 何 从 ud 链 分 析 


党 


困难 的 。 因 此 ， 比 较 理想 的 解决 方法 
FP 获取 相关 的 信息 呢 ? 假 设 从 某 个 变 


量 引 用 点 出 发 开始 分 析 该 变量 的 ud 链 ， 在 分 析 过 程 中 ， 可 以 发 现存 在 至 少 一 条 从 流 图 的 入 


能 存在 未 初始 化 的 情形 。 


三 | 


口 到 当前 引用 点 的 路 径 ， 且 该 路 径 上 没有 任何 对 该 变量 


及 


的 定 值 点 。 那 么 ， 也 就 表示 该 变量 可 
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时 R i 
罗 、 编译 器 设计 之 路 
Se 


ud 链 分 析 算 法 的 大 致 框架 与 du 链 类 似 。 从 算法 实现 来 说 ，ud 链 分 析 可 能 更 简单 些 。 下 
面 ， 就 来 看 看 相关 源 代 码 的 实现 。 


程序 7-8 DataFlowAnalysis.cpp 
1 vector<int> CDataFlowAnalysis::GetUd(int iVar,int 1Bb,int iEnd,int ijProcIndex,bool &bUninit) 
2 国法 | 
9 vector<int> tmp; 
4 int i; 
3 if (bHasVisit.find(iBb)!=bHasVisit.end()) 
6 return tmp; 
Z else 
8 { 
9 if (bFirst) 
10 bFirst=false; 
11 else 
12 bHasVisit.insert(iBb); 
13 } 
14 1i=ForwardHasDef(iVar,CurrentBasicBlock->at(iBb).iStart,iEnd-1,iProcIndex); 
15 if (i==-1 && iBb==0) 
16 bUninit=true; 
17 if (i!=-1) 
18 { 
19 tmp.push_back(i); 
20 return tmp; 
21 } 
2 else 
23 { 
24 for(int j=0;j<CurrentBasicBlock->atiBb).UpFlow.sizeO;j++) 
25 { 
26 int i=CurrentBasicBlock->atiBb).UpFlow![j]; 
2 vector<int> UpFlowUd=GetUd(iVar,i,CurrentBasicBlock->at(i) 
28 .End+1,iProcIndex,bUninit); 
29 if (IUpFlowUd.empty()) 
30 tmp.insert(tmp.end(),UpFlowUd.begin(),UpFlowUd.end()); 
3 } 
32 } 
23 return tmp; 
34 } 
第 5、6 行 : 判断 当前 基本 块 是 否 已 访问 。 这 与 du 链 分 析 算 法 是 类 似 的 。 
第 8 一 13 行 : 将 当前 基本 块 的 位 序号 加 入 bHasVisit 集合 中 。 其 中 ，bFirst 是 一 个 布尔 变 


用 于 满足 起 始 基本 块 特殊 处 理 的 需要 。 


第 14 行 : 调用 ForwardHasDef 分 析 当 前 基本 块 内 自 iStart 之 后 是 否 有 其 他 下 对 当前 变 


量 进行 定 值 。 如 果 存 在 ， 则 ForwardHasDef 函数 将 返回 该 定 值 点 的 位 置 ， 和 否则 返回 -1。 


第 15、16 行 


F: 如 果 已 经 遍历 到 流 图 的 入 口 结 点 且 仍 没有 找到 定 值 点 ， 则 表示 存在 变量 
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使 用 前 未 初始 化 的 情形 。 


第 17 一 20 行 : 如 果 i=-1， 则 无 需 继 续 沿 流 图 向 下 边 搜索 ， 返 回 tmp 即 可 。 
第 23 一 32 行 : 沿 流 图 向 上 边 搜索 可 能 的 路 径 ， 将 路 径 中 最 后 一 个 定 值 点 加 入 tmp 向 量 


中 。 由 于 遍历 IR 的 过 程 是 自 下 而 上 的 ， 因 此 ， 路 径 中 的 最 后 一 个 定 值 点 也 就 是 遍历 过 程 中 


的 第 一 个 定 值 点 。 如 果 检 索 成 功 ， 则 不 再 继续 遍历 本 条 路 径 。 在 第 27 行 中 ， 递 归 调 用 


GetUd 函数 时 ， 第 3 个 实 参 的 情况 与 GetDu 函数 类 似 ， 这 里 就 不 再 解释 


ForwardHasDef 的 源 代码 实现 与 BackwardHasDef 非常 类 似 ， 这 上 


码 ， 详 细 的 解释 请 读者 参阅 BackwardHasDef 函数 。 


星 序 7-9 DataFlowAnalysis.cpp 


其 原因 了 。 


EE ， 笔 者 仅 给 


1 int CDataFlowAnalysis::ForwardHasDef(int iVarint iStart,int IEnd,int iProcIndex) 
2 { 
3 Vector<int> tmp; 
4 map<string,vector<int>>::iterator it=VarDetf.find(itos(iProcIndex)+"$"+itos(iVar)); 
本 if (t=—=VarDetf.end() || iStart>iEnd) 
6 return —1; 
有 else 
8 { 
9 int i; 
10 for(i=it->second.size()-1;1>=0;i--) 
11 { 
12 if (it->second[i]<iStart) 
13 return —1; 
14 if (it->second[i]>=iStart && it->second[i]<=iEnd) 
15 break; 
16 } 
I if G!= -1) 
18 return it->second[i]; 
19 else 
20 return —1; 
2 } 
22 } 


8 源 代 


前 面 ， 已 经 详细 讨论 了 ud 链 、du 链 分 析 算 法 的 实现 细节 。 这 两 个 算法 是 针对 一 个 特定 
的 程序 点 讨论 某 一 变量 在 该 程序 点 上 的 ud 链 、du 信息 。 最 后 ， 来 看 看 ud 链 、du 链 分 析 的 
主 控 函数 ， 以 便 了 解 主 控 函 数 是 如 何 调用 GetUd、GetDu 函数 实现 ud 链 、du 链 分 析 的 。 


旦 序 7-10 ”DataFlowAnalysis.cpp 


1 void CDataFlowAnalysis::ud_ du Analysis(int iProcIndex) 

2  { 

3 vector<CBasicBlock>* pBbs=&BasicBlock[iProcIndex]; 

4 IRCode* TmpIR; 

9 for(int i=0;i<SymbolTbl.ProcInfoTbl[iProcIndex].m Codes.size();i++) 

6 { 

SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Opl.m udChain.clear(); 
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SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Opl.m duChain.clear(); 
SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Op2.m udChain.clear(); 
SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Op2.m duChain.clear(); 
SymbolTbl.ProcInfoTbl[iProcIndex|.m Codes[i].m Rslt.m udChain.clear(); 
SymbolTbl.ProcInfoTbl[iProcIndex|.m Codes[il.m Rslt.m duChain.clear(); 
SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Opl.m bUninit=false; 

SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Op2.m bUninit=false; 

[ [ 


SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[i].m Rslt.m bUninit=false; 


} 
for(int i=0;i<pBbs->size();i++) 
{ 
CurrentBasicBlock=pBbs; 
for(int j=pBbs->at(i).iStart;] <=pBbs->at(i).iEnd;j++) 
{ 
TmpIR=&SymbolTbl.ProcInfoTbl[iProcIndex].m Codes[j]; 
Opti_Tbl* TmpOpti; 
if (TmpIR->m eOpType<0) 
TmpOpti=SearchOptiTbl(OpType::TypeCast); 
else if (TmpIR->m eOpType>>4>=21) 
TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
else if (TmpIR->m eOpType>>4<21) 


TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType>>4<<4)); 


if (TmpOptil=NULL && TmpOpti->eExpType!=Opti_Tbl::None) 


{ 
if (TmpIR->m eOpType= =OpType::ASM) 
{ 
continue; 
} 
if (TmpIR->m Op2.m iType= =OpInfo::VAR && !TmpIR->m Op2.m bRef) 
{ 
bHasVisit.clear(); 
bFirst=true; 
TmpIR->m Op2.m udChain=GetUd(TmpIR->m Op2.m iLink,i,j,iProcIndex 
,TmpIR->m Op2.m bUninit); 
} 
if (TmpIR->m Opl.m iType= =OpInfo::VAR && !TmpIR->m Opl.m bRef) 
{ 
bHasVisit.clear(); 
bFirst=true:; 
TmpIR->m Opl.m udChain=GetUd(TmpIR->m Opl.m iLink,i,j,iProcIndex 
,TmpIR->m Opl.m bUninit); 
} 
if (TmpIR->m Rslt.m iType= =OpInfo::VAR && !TmpIR->m Rslt.m bRef) 
{ 
bHasVisit.clear(); 
bFirst=true; 
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54 TmpIR->m Rsltm duChain=GetDu(TmpIR->m Rslt.m iLink,i,j,iProcIndex); 


第 3 行 : 获取 当前 过 程 的 基本 块 信息 。 

第 5 一 16 行 : 遍历 当前 过 程 的 IR 列表 ， 清 空 各 操作 数 的 ud 链 、du 链 。 

第 17~58 行 : 遍历 流 图 中 各 基本 块 。 

第 20 一 57 行 : 遍历 基本 块 内 的 阴 序列 。 

第 24 一 29 行 : 获取 处 理 方案 。 

第 36 一 42 行 : 调用 GetUd 函数 ， 分 析 m_Op2 的 ud 链 信息 。 注 意 ， 在 ud 链 分 析 中 ， 不 
分 析 间 接 寻 址 变量 的 ud 链 信息 。 由 于 Neo Pascal 并 没有 打算 做 指针 相关 的 优化 ， 因 此 ， 分 
析 间 接 寻 址 变量 的 ud 链 信 息 的 意义 不 大 。 当 然 ， 目 前 的 定 值 、 引 用 点 信息 也 不 足以 完成 分 
析 间 接 寻 址 变量 的 ud 链 。 

第 43 一 49 行 : 调用 GetUd 函数 ， 分 析 m_Op1l 的 ud 链 信息 。 

第 50 一 55 行 : 调用 GetDu 函数 ， 分 析 m_Rslt 的 du 链 信息 。 

至 此 ， 己 经 详细 阐述 了 经 典 编译 技术 中 关于 数据 流 分 析 的 一 些 基本 思想 与 算法 实现 ， 并 
结合 Neo Pascal 剖析 了 几 个 最 为 常见 的 算法 模型 。 数 据 流 分 析 是 优化 技术 中 一 个 重要 且 复 杂 
的 话题 。 虽 然 笔 者 尽 可 能 结合 程序 实例 与 Neo Pascal 源 代 码 解释 一 些 经 典 的 数据 流 问 题 ， 但 
是 ， 对 于 没有 学 习 过 编译 原理 的 读者 来 说 ， 理 解 上 述 内 容 可 能 还 是 有 一 定 难 度 的 。 针 对 尚未 
深入 理解 算法 实现 的 读者 ， 笔 者 的 建议 如 下 : 暂且 不 必 关 注 源 代码 实现 ， 可 以 先 把 握 两 个 要 
点 。 第 一 ， 理 解数 据 流 分 析 的 一 些 名 词 概念 ， 第 二 ， 理 清 Neo Pascal 数据 流 分 析 算 法 的 主要 
数据 结构 。 这 两 个 要 点 是 学 习 后 续 章节 的 基础 ， 相 信 读 者 阅读 完 本 章 内 容 之 后 ， 可 能 会 对 数 
据 流 分 析 有 更 深刻 的 认识 和 理解 。 


] 7.5 ”常量 传播 与 常量 折 垒 
7.5.1 常量 传播 基础 

常量 传播 (constant propagation) 是 一 种 代码 转换 ， 其 基本 思想 如 下 : 对 于 给 定 关 于 
某 个 变量 v 和 一 个 常量 c 的 赋值 vce， 在 没有 出 现 其 他 关于 v 定 值 的 程序 范围 内 ， 编 译 


器 则 用 c 来 替代 出 现 的 v 的 引用 。 常 量 传播 是 一 种 实现 代价 较 小 且 效 果 显著 的 转换 ， 它 
为 进一步 的 常量 折合 创造 了 新 的 契机 。 下 面 ， 通 过 一 个 简单 的 实例 来 解释 常量 传播 的 方 


例 7-2 局 部 常量 传播 的 实例 ， 见 表 7-4。 

这 是 一 个 简单 的 常量 传播 的 实例 。 试 比较 (b)、(c) 两 列 ， 不 难 发 现 ，IR 的 语句 规模 似乎 
并 没有 任何 减 小 。 请 读者 注意 ， 常 量 传播 的 基本 思想 仅仅 指出 了 其 核心 目标 是 尽 可 能 用 常量 
替代 变量 的 引用 ， 而 不 是 减少 IR 指令 。 其 根据 基本 思想 的 描述 ， 从 (b) 到 (c) 的 转换 似乎 已 经 
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[ 

达到 了 预期 的 效果 ， 例 如 ， 第 0 行 对 T0 的 定 值 已 经 分 别传 播 到 了 第 1、4 行 IR 中 ， 而 第 2 
行 对 _T1l 的 定 值 已 经 分 别传 播 到 了 第 3、4 行 下 中 。 那 么 ， 这 种 传播 的 意义 又 是 什么 昵 ? 仔 


细 观 察 (c) 列 ， 不 难 发 现 ， 第 4 行 IR 的 两 个 操作 数 都 变 成 了 常量 ， 这 是 常量 折 登 的 契机 。 换 


句 话说 ， 在 优化 阶段 讨论 常量 传播 的 主要 目的 之 一 就 是 为 常量 折合 创造 优化 的 条 件 。 


表 7-4 局 部 常量 传播 实例 分 析 


(a) 输入 源 程序 片段 (b) 原始 的 食 (c) 常量 传播 后 的 食 
var ij:integer; 0 (ByteToInt ,20,null, TO) 0: (ByteTomt ,20,.null]，T0) 
begin 1 (ASSIGN 4 ，TOnull.D 1: (ASSIGN 4 ,20,null,1) 
i:=20; 2 (ByteToInt ,30,null, T1) 必 : (ByteToInt ,30,null, T1) 
j:=30; 3 (ASSIGN 4 ,Tl,null,]) 3 (ASSIGN 4 ,30,nu011,J) 
j:=i+j; 4 (ADD 4 ,1,J, T2) 4: (ADD 4 ,20,30,，T2) 
result:=j; 5 (ASSIGN 4 ,_T2,null,]) S$: (ASSIGN 4 ,_T2,null,]) 
end; 6 (ASSIGN 4 ,J,null,RESULT) 6: (ASSIGN 4 ,J,null,RESULT) 
下 面 ， 再 来 看 一 个 稍 复杂 的 实例 。 
例 7-3 全 局 常量 传播 的 实例 ， 见 表 7-5。 
表 7-5 全 局 常量 传播 实例 分 析 
(a) 输入 源 程 序 (b) 原始 的 下 (c) 常量 传播 后 的 及 
Var jj:integer; 0: (ByteToInt ,30,null, TO) 0: (ByteTomt ,30,null, TO) 
begin 下 (ASSIGN 4 ,_TO,null,]) I: (ASSIGN 4 ,30.nullL.J) 
j:=30; 2: (MR 4 ,1,J, T1) 2: (MR 4 ,1,30, T1) 
if i>j then 3: (NT , Tl,null, L2) 对 (JNT ,_ Tl,null, L2) 
i:=20 4: (ByteToInt ,20,null, T4) 4: (ByteToInt ,20,null, T4) 
else 3 (ASSIGN 4 ,_T4,null,D) $: (ASSIGN 4 ,20,null,D) 
i:=20; 6: (JMP ， 工 3,nullnulD) 6: (JMP ,LL3,null,null) 
j:=itj; 光 (LABEL ，L2:nullnulD) 天 (LABEL ，L2.nullnull) 
result:=j; 8: (ByteToInt ,20,null, TS5) 8: (ByteToInt ,20,null, TS5) 
end; 9: (ASSIGN 4 ,TS,null,l) 9: (ASSIGN 4 ,20,null,1) 
10: (LABEL ,LL3,null,null) 0 (LABEL ,LL3,null,null) 
11: (ADD 4 ,1,J, T6) 1 (ADD 4 ,20,30,T6) 
12; (ASSIGN 4 ,_T6,null,]) 2: (ASSIGN 4 ,_T6,null,]) 
13: (ASSIGN 4 ,J,null,RESULT) 3 (ASSIGN 4 ,J,null,RESULT) 


从 实现 的 角度 而 言 ， 例 7-3 与 例 7-2 的 主要 差别 就 在 于 例 7-3 的 常量 传播 的 范围 已 经 突 


破 了 一 个 基本 块 的 限制 ， 是 在 整个 过 程 范 围 内 进行 的 。 在 这 种 情况 下 ， 需 要 考察 从 入 口 至 当 


前 IR 的 每 一 条 可 能 到 达 路 径 的 定 值 信息 后 ， 才 能 决策 是 否 传播 以 及 如 何 传播 。 在 例 7-3 


口 


PF， 由 于 站 语句 真 、 假 分 支 中 都 存在 对 i 的 常量 定 值 ， 且 常量 的 值 都 是 20， 因 此 ， 该 常量 值 


是 可 以 传播 到 j:=itj 中 的 。 假 设 某 一 个 分 文中 不 存在 对 i 的 常量 定 值 ， 或 者 两 个 常量 的 值 不 
同 ， 此 时 ， 进 行 常量 传播 是 不 允许 的 。 本 书 将 重点 讨论 关于 过 程 内 常量 传播 的 实现 ， 即 全 局 


常量 传播 。 为 了 便于 讲解 ， 除 了 有 明确 说 明之 外 ， 本 书 提 及 的 “常量 传播 ”都 是 指 全 局 常量 
传播 ， 而 不 是 局 部 第 量 传播 。 


3 
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讨论 常量 传播 的 关键 在 于 确定 常量 传播 是 否 安全 ， 这 是 至 关 重 要 的 。 从 ud 链 的 角度 来 
思考 这 个 问题 就 变 得 非常 简单 了 。ud 链 描述 的 就 是 可 以 到 达 某 一 变量 引用 点 的 所 有 关于 该 变 
量 的 定 值 信息 。 也 就 是 说 ， 讨 论 某 一 IR 的 操作 数 是 否 满足 常量 传播 的 条 件 ， 就 只 需要 考察 
该 操作 数 ud 链 中 的 每 个 定 值 点 即 可 。 如 果 定 值 点 都 满足 以 下 四 个 条 件 : 

(1) IR 的 操作 码 是 赋值 或 人 云 算 。 

(2) Op1l 皆 为 值 相同 的 常 

(3) 结果 操作 数 不 是 间接 寻 址 方式 。 

(4) 不 存在 未 初始 化 的 路 径 。 
那么 ， 常 量 传播 就 是 安全 的 。 对 于 前 3 个 条 件 ， 一 般 读者 不 会 有 什么 异议 。 而 第 4 个 条 件 通 
常 是 容易 忽视 的 。 在 这 个 问题 上 ， 即 使 是 经 典 的 GCC， 也 存在 百 密 一 疏 之 处 。 
除了 常量 传播 的 安全 性 之 外 ， 判 定 两 个 常量 值 是 否 相 等 的 标准 也 是 编译 器 设计 者 感 兴 
的 。 例 如 ，10 与 10.0 是 否 相 等 ，10.0000001 与 10.000000 是 否 相等 ， 这 些 问题 都 必须 由 编译 
器 设计 者 来 明确 回答 。 在 实践 中 ， 不 同 的 编译 器 关于 这 类 问题 的 解释 与 处 理 是 不 尽 相 同 的 。 
很 多 时 候 ， 这 个 标准 是 依赖 于 运行 机 或 者 目标 机 的 系统 结构 而 定 的 。 壁 如 ， 浮 点 数 的 表示 、 
浮 点 指令 集 等 。 下 面 ， 笔 者 通过 实例 来 分 析 GCC 中 关于 常量 传播 的 一 个 疏漏 之 处 。 

例 7-4 GCC 常量 传播 的 实例 分 析 。 

如 果 读 者 使 用 GCC 3.2 的 -O02 参数 编译 表 7-6 中 (a) 列 源 程 序 后 ， 不 难 发 现 ， 生 成 的 可 执 
行文 件 的 运行 结果 永远 是 “23”， 并 不 依赖 于 aa0) 函 数 的 返回 值 。 实 际 上 ， 从 (c) 列 的 汇编 程 
序 片段 中 ， 读 者 是 很 容易 证 明 这 一 结论 的 。 请 读者 注意 (c) 列 第 13 行 与 (b) 列 第 17 行 的 区 
别 ， 这 是 调用 printf 之 前 的 传 参 指令 ， 不 难 发 现 ，(c) 列 程序 中 是 直接 将 常量 “23” 压 栈 ， 而 
(b) 列 程序 中 是 将 “-8(%ebp)” 所 示 存 储 单元 中 的 数据 压 栈 。 显 然 ， 从 程序 的 原始 语义 来 说 ， 
(c) 列 程序 是 不 正确 的 。 也 就 是 说 ， 在 这 种 情形 下 ，GCC 的 常量 传播 算法 是 不 安全 的 。 


t 


表 7-6 GCC 常量 传播 的 实例 分 析 


(a) 输入 源 程序 (b) 未 优化 的 汇编 程序 片段 (c) 带 优 化 的 汇编 程序 片段 
#include "stdio.h" 1 _main: _main: 
int aa() 2 pushl  %ebp pushl %ebp 
{ 3 movl  %esp, %ebp xorl %eax, Weax 
int a; 4 subl $24, %esp movl %esp, %ebp 
scanf("%d",&a); 5 andl $-16, %esp pushl %edx 
return a; 6 movl $0, %eax pushl %edx 
} 7 movl %eax, -12(%ebp) andl $-16, %esp 
main() 8 movl -12(%ebp), %eax call _ alloca 
{ 9 call _ alloca call ___ main 
int a,b; 10 call _ main call _aa 
if (aa()) 11 call _aa pushl Yeax 
b=23; 12 testl %eax, Weax pushl %eax 
printf("%d",b); 13 je LS pushl $23 
} 14 movl $23,-8(%ebp) pushl $LCO 
15 LS5: call _printf 
16 subl $8, %esp movl %ebp, %esp 
17 pushl -8(%ebp) popl %ebp 
18 pushl S$LCO ret 
19 call _printf 
20 addl $16, %esp 
21 leave 
22 Tet 
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问题 的 本 质 在 于 GCC 的 常量 传播 并 没有 考虑 未 初始 化 路 径 的 因素 。 从 ud 链 角 度 分 析 ， 
很 容易 理解 这 个 错误 。 在 整个 程序 中 ，b 的 唯一 定 值 点 就 是 b=23。 因 此 ， 不 考虑 未 初始 化 路 
径 的 情况 下 ， 编 译 器 必然 认为 这 种 情形 是 满足 常量 传播 要 求 ， 以 至 于 将 常量 “23 ”直接 传播 


到 了 printf 语句 中 参数 b 的 引用 处 。 


至 此 ， 已 经 讨论 了 常量 传播 的 基本 话题 。 常 量 传播 的 目的 就 是 为 常量 折 靶 创造 优化 的 条 


件 。 因 此 ， 在 很 多 情况 下 ， 为 了 保证 优化 效果 ， 常 量 折 对 是 紧 接着 常量 传播 进行 的 。 
7.5.2 ”常量 传播 的 实现 


在 Neo Pascal 中 ， 常 量 传 播 是 基于 过 程 内 讨论 的 。 下 面 将 详细 分 析 Neo Pascal 中 常量 


时 传 


播 算法 的 源 代码 实现 。 


程序 7-11 Const_Prop.cpp 


1 void CConst Prop::Const Prop(int iProcIndex) 
2  { 
3 bool bChange=true; 
4 while (bChange) 
5 { 
6 bChange=false; 
了 for (int i=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size();i++) 
8 { 
9 IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[il; 
10 Opti_Tbl* TmpOpti; 
11 if (TmpIR->m eOpType<0) 
12 TmpOpti=SearchOptiTbl(OpType::TypeCast); 
8 else if (TmpIR->m eOpType>>4>=21) 
14 TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
15 else if (TmpIR->m eOpType>>4<21) 
16 TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType>>4<<4)); 
Wy if (TmpOptil=NULL && TmpOpti->eExpType!=Opti_Tbl::None) 
18 { 
19 if (TmpIR->m Op2.m iType==OpInfo::VAR && !TmpIR->m Op2.m bRef 
20 && IImpIR->m Op2.m bUninit) 
21 { 
2 bChangel=GenConstOp(TmpIR->m Op2,iProcIndex); 
23 } 
24 if (TmpIR->m Opl.m iType==OpInfo::VAR && !TmpIR->m Opl.m bRef 
25 && IImpIR->m Opl.m bUninit) 
26 { 
2 bChangel=GenConstOp(TmpIR->m Opl,iProcIndex); 
28 } 
29 } 
30 } 
31 } 
2 、 
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第 3 行 : 初始 化 常量 传播 的 结束 标志 。 与 许多 优化 算法 一 样 ， 常 量 传播 通常 也 会 进行 多 


遍 处 理 ， 直 到 进入 稳定 状态 为 止 。 所 谓 “ 稳 定 状态 ”就 是 指 在 一 遍 扫描 过 程 中 ， 代 码 没 有 发 
生 任 何 改进 的 状态 。 实 际 上 ， 多 人 遍 扫 描 处 理 的 目的 就 是 为 了 使 常量 传播 的 范围 更 广 ， 效 果 更 
显著 。 
第 4 行 : 判断 常量 传播 是 否 结束 。 
第 7~31 行 : 遍历 IR 列表 。 
第 9 行 : 获取 当前 IR。 
11 一 16 行 : 获取 处 理 方案 。 


第 19、20 行 : 判断 m_Op2 操作 数 是 否 需要 进行 常量 传 


条 件 : 


Ar 


(1) 操作 数 必须 为 变量 ， 即 m_iType==OpInfo::VAR。 
(2) 操作 数 不 允 许 是 间接 寻 址 ， 即 m_bRef 为 false。 


(3) 不 允许 
第 22 行 : 


【声明 7-10】 
bool CConst_Prop::GenConstOp(OpInfo &Op,int iProcIndex) 


注意 ， 
要 求 ， 那 么 ， 


存在 未 初始 化 的 路 径 ， 即 m_bUninit 为 false。 
调用 GenConstOp 函数 进行 常量 传播 。GenConstOp 函数 声明 形式 如 下 ; 


参数 Op 为 引用 传递 ， 也 就 是 说 ， 如 果 给 定 操 作 数 的 所 有 ud 点 都 满足 常量 
GenConstOp 将 通过 修改 Op 的 属性 ， 以 实现 常量 传播 的 目的 。 函 数 的 返 


备 优 化 。 通常， 要 满足 如 下 三 


传播 的 


回 值 


用 


于 标识 实 参 操作 数 在 常量 传播 过 程 中 是 否 被 修改 。 关 于 GenConstOp 函数 的 实现 稍 后 详解 。 


即 调 


下 面 来 看 看 GenConstOp 函数 的 实现 ， 这 是 常量 传播 的 核心 。 


程序 7-12 Const_Prop.cpp 
bool CConst_ Prop::GenConstOp(OpInfo &Op,int iProcIndex) 


1 


‘OP OD 


ee 
~1Cwmw 上 wb 一 呈 


{ 


bool first=true; 


int ConstOpType=-1; 

OpInfo* TmpOp; 

ConstInfo TmpConstInfo; 

for(int 1=0;i<Op.m udChain.size();i++) 


{ 


IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[Op.m udChainfi]]l; 

Opti_Tbl* TmpOpti; 

if (TmpIR->m eOpType<0) 
TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 

else if (TmpIR->m eOpType>>4—21) 
TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 

else if (TmpIR->m eOpType>>4<21) 
TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType>>4<<4)); 

if (TmpOptil=NULL && TmpOpti->eConstPropType!=Opti_Tbl::None) 


第 24 一 28 行 : 判断 m_Op1 操作 数 是 否 需要 进行 常量 传播 优化 。 如 满足 以 上 三 个 条 件 


GenConstOp 函数 进行 常量 传播 。 
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18 { 

19 if (TmpIR->m Opl.m iType—OpInfo::CONST) 

20 { 

2 if (TmpIR->m Rslt.m bRef) 

22 return false; 

23 if (first) 

24 { 

D3 TmpConstInfo=SymbolTbl.ConstInfoTbl.at( TmpIR->m Opl.m iLink); 
26 TmpOp=&TmpIR->m Op1l; 

2 ConstOpType=TmpOpti->eConstPropType; 

28 first=false; 

29 } 

30 else 

31 { 

22 if (TmpConstInfo.m ConstType!=SymbolTbl.ConstInfoTb! 
33 .at(TmpIR->m Opl.m iLink).m ConstType) 
34 { 

35 return false; 

36 } 

3 过 Switch (TmpConstInfo.m ConstType) 

38 

3 case ConstType::BOOLEAN: 

40 case ConstType::PTR: 

41 case ConstType::SET: 

42 case ConstType::STRING: 

43 if (TmpConstInfo.m_ szName!=SymbolTbl.ConstInfoTbl 
44 .at(TmpIR->m Opl.m iLink).m szName) 
45 return false; 

46 break; 

47 default: 

48 if (fabs(TmpConstInfo.m fVal-SymbolTbl.ConstInfoTbl 
49 .at(TmpIR->m Opl.m iLink).m fVal)>10e-30) 
50 return false; 

51 break; 

$2 } 

53 } 

54 } 

55 else 

56 return false; 

SY } 

58 else 

59 return false; 

60 } 

61 if (ConstOpType==-1) 

62 return false; 

63 Op.m_iType=OpInfo::CONST; 
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81 
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87 
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if (ConstOpType= =Opti_Tbl::ToAssign) 


{ 
Op.m iLink=TmpOp->m iLink; 


Op.m iLink=SymbolTbl.ConstInfoTbl.size(); 

} 

Op.m udChain.clear(); 

switch(ConstOpType) 

{ 

case Opti_Tbl::TolInt: 
TmpConstInfo.m ConstType=ConstType::INTEGER:; 
TmpConstInfo.m StoreType=StoreType::T_INTEGER:; 
break; 

case Opti_Tbl::ToReal: 
TmpConstInfo.m ConstType=ConstType::REAL; 
TmpConstInfo.m_ StoreType=StoreType::T_ REAL; 
break; 

case Opti_Tbl::ToSingle: 
TmpConstInfo.m ConstType=ConstType::REAL; 
TmpConstInfo.m StoreType=StoreType::T_SINGLE:; 
break; 

case Opti_Tbl::ToSmall: 
TmpConstInfo.m ConstType=ConstType::INTEGER:; 
TmpConstInfo.m StoreType=StoreType::T_ SMALLINT; 
break; 

case Opti_Tbl::ToWord: 
TmpConstInfo.m ConstType=ConstType::INTEGER.; 
TmpConstInfo.m_ StoreType=StoreType::T_ WORD; 
break; 

case Opti_Tbl::ToLong: 
TmpConstInfo.m ConstType=ConstType::INTEGER:; 
TmpConstInfo.m_ StoreType=StoreType::T_ LONGWORD.; 
break; 

case Opti_Tbl::ToShort: 
TmpConstInfo.m ConstType=ConstType::INTEGER:; 
TmpConstInfo.m_ StoreType=StoreType::T_ SHORTINT; 
break; 

case Opti_Tbl::ToByte: 
TmpConstInfo.m ConstType=ConstType::INTEGER.; 
TmpConstInfo.m_ StoreType=StoreType::T_BYTE; 
break; 

case Opti_Tbl::ToLong8: 
TmpConstInfo.m ConstType=ConstType::INTEGER.; 
TmpConstInfo.m StoreType=StoreType::T LONGS,; 
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112 SymbolTbl.ConstInfoTbl.push_back(TmpConstInfo); 


110 break; 

111 } 

113 bOptiChanged=true; 
114 return true; 

115 } 


第 7 行 : 遍历 操作 数 的 ud 链 信 息 。 
民 据 ud 链 中 的 定 值 点 信息 ， 获 取 相 应 的 IR。 
: 获取 处 至 


第 9 行 : 机 
第 11 一 16 行 
第 19 一 54 行 : 


(2) 第 21 行 : 


第 61、62 行 : 这 个 这 结构 主要 用 
进行 常量 传播 的 。 

第 63 一 112 行 : 通过 改变 参数 Op 的 属 怕 
属性 为 OpInfo::CONST。 
量 传播 的 特点 ， 操 作 数 定 值 点 
况 ， 即 赋值 运算 或 类 型 转换 运算 。 如 果 IR 是 赋值 运算 ， 那 么 ， 只 需 将 m_iLink 


第 63 行 : 设置 m iType 局 
第 64~71 行 : 设置 m_iLink 属性 


[IM 


可 能 有 两 种 


量 比较 m_fVal 
外 ， 编 译 器 还 严格 比较 常量 的 类 
在 逐一 判断 比较 的 过 程 中 ， 如 出 现 不 满足 党 
就 是 说 ， 这 个 for 循环 能 够 


方案 。 


逐一 判断 ud 链 各 定 值 点 是 否 满足 常量 传播 的 基本 要 求 ， 主 要 判断 如 下 三 


沽 


I 断定 值 点 IR 的 m_Opl 是 否 为 常量 。 

判断 定 值 点 IR 的 m_Rslt 是 否 为 间接 寻 址 方式 。 
(3) 第 23 一 53 行 : 判断 各 定 值 点 的 常量 值 是否 相 同 。 这 是 
属性 ， 而 其 他 类 型 常量 直接 上 


直接 指向 该 常 和 


量 符号 即 可 。 如 果 人 


已 ， 值 得 注意 的 是 ， 整 型 、 实 
ame 属性 。 除 了 比较 常量 值 之 
蜡 信 息 ， 即 m_ConstType 属性 。 
的 情形 ， 则 立刻 返回 false。 也 


正常 结束 即 表 明 给 定 操作 数 ud 链 的 由 点 完全 满足 常量 传播 


时 操作 数 的 ud 链 为 空 的 情况 。 


这 种 情况 是 不 需要 


的 下 的 操作 符 


上 4 转换 运算 ， 就 必须 由 


译 器 完成 常量 类 型 的 转 


换 ， 即 生成 一 个 新 的 常量 符号 


第 73 一 112 行 : 根据 定 值 点 的 IR 操作 符 ， 设 置 新 生成 常量 


至 此 ， 已 经 详 


| 7.6 复写 传播 


7.6.1 复写 传播 的 基础 


复写 传 择 


(copy propagation) 是 一 


于 存储 转换 结果 。 并 且 将 m iLink 属性 指向 间 
以 保证 常量 传播 后 IR 操作 数 的 类 型 仍然 是 兼容 的 。 


i 的 常量 符号 ， 


讨论 了 Neo Pascal 中 常量 传播 的 实现 
问题 并 未 作 深入 阐述 。 有 兴趣 的 读者 可 以 参考 “ 龙 书 ”的 相关 章节 。 


代码 转换 ， 其 基本 ， 


的 类 型 信息 。 
节 。 然 而 ， 常 量 传播 的 一 些 理论 


于 给 定 的 关于 某 


个 变量 v 和 s 的 赋值 vs， 在 没有 出 现 其 他 关于 v 定 值 的 程序 范围 内 ， 编 译 器 用 s 来 替代 


出 现 的 v 的 引 
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。 从 定义 上 来 说 ， 不 难 发 现 复写 传播 与 常量 传播 有 着 惊人 的 相似 之 处 。 的 


确 如 此 ， 这 正 是 传播 


意义 。 


优化 的 基本 思 


想 。 下 面 ， 通 过 一 个 简单 的 实例 来 解释 复写 传播 的 方法 


例 7-5 局 部 复写 传播 的 实例 。 见 表 7-7。 


(a) 输入 源 程序 片段 


优化 技术 | 第 7 党 


表 7-7 局 部 复写 传播 的 实例 分 析 


(b) 原始 的 蕉 


Var 
a,b,c,d:integer; 
efg:integer; 


begin 


gE; 
result:=g; 


end; 


从 形式 上 来 说 ， 


0: (ASSIGN 4 
l: (ASSIGN 4 
2: (ASSIGN 4 
3: (ASSIGN 4 
4: (ASSIGN 4 
3: (ASSIGN 4 
6: (ASSIGN 4 
这 个 实例 可 能 


较 (b)、(c) 两 列 ， 不 难 


播 的 定义 ， 由 于 (b) 列 
有 译 器 则 可 以 用 A 来 蔡 代 所 有 出 现 


NS 


,A,null,B) 
,B,null,C) 
,C,null,D) 
,D,null,E) 
,E,null,F) 
,F,null,G) 
,G,null,RESULT) 


(c) 复写 传播 后 的 下 
0 (ASSIGN 4 ,AinulLB) 
1 (ASSIGN 4 ,AnulLC) 
2 (ASSIGN 4 ,AnulLD) 
3: (ASSIGN 4 ,AinulLE) 
4 (ASSIGN 4 ,AinulLF) 
5 (ASSIGN 4 ,AnulLG) 
6 (ASSIGN 4 ,AnulLRESULT) 


9 些 极端 ， 但 非常 有 利于 说 明 复 写 传播 的 方法 及 意义 。 比 
发 现 ，(c) 列 中 所 有 指令 的 第 1 个 操作 数 都 被 蔡 代 为 “A” 根据 复写 传 


中 第 0 行 是 B 一 A 的 赋值 ， 而 整个 程序 中 并 不 存在 其 他 关于 B 的 定 值 ， 


的 对 B 的 引用 。 


因此 ， 将 第 1 行 替 换 为 CA 的 赋值 。 


以 此 类 推 ， 不 难得 到 (c) 列 的 结果 。 关 于 复写 传播 的 方法 ， 应 该 并 不 难 理解 。 


复写 传播 的 现实 意义 是 什么 呢 ? 或 者 说 ， 相 比 (b) 列 代码 而 言 ，(@) 列 代码 的 优势 是 什么 
呢 ? 实际 上 ， 复 写 传播 的 意义 就 是 在 于 尽 可 能 减少 程序 中 的 活跃 变量 的 个 数 。 从 一 个 函数 的 


G 也 是 活路 的。 而 G 的 值 又 是 从 F 中 获得 的 ， 因 此 


中 A、B、C、D、E、F、G 都 将 是 活跃 变量 。 以 同样 的 方法 分 析 (@ 列 代码 ， 不 难 发 现 ， 基 


中 只 有 A 是 活跃 变量 
有 意义 的 ， 即 可 删除 。 这 档 


角度 来 说 ， 只 有 RESULT 是 活跃 变量 ， 因 为 它 是 用 于 存储 函数 返回 值 的 ， 其 他 的 变量 在 离开 
函数 体 后 ， 都 是 没有 意义 的 。 当 然 ， 除 了 RESULT 之 外 ， 与 RESULT 定 值 相关 的 变量 也 将 
是 活跃 的 。 先 来 分 析 (b) 列 代码 的 活跃 变量 的 个 数 。 由 于 RESULT 值 是 从 G 中 得 到 的 ， 故 


F 也 将 是 活跃 的 。 以 此 类 推 ，(b) 列 代码 


。 根 据 先前 关于 活跃 变量 的 讨论 ， 对 于 非 活跃 变量 的 赋值 操作 都 是 没 


的 话 ，(c) 列 代码 最 终 就 只 剩 下 最 后 一 行 IR 了 ， 这 个 成 果 是 令 


人 可 喜 的 。 不 仅 如 此 ， 就 本 例 而 言 ， 当 删除 了 (@) 列 中 元 余 的 赋值 之 后 ， 由 于 整个 程序 中 不 
存在 任何 关于 B、C、D、E、F、G 的 引用 与 定 值 ， 


储 空间 。 


的 实例 了 。 复 写 传播 虽然 成 效 显著 ， 
能 失效 的 。 正 如 先前 讨论 的 ， 优 化 


同样 ， 复 写 传播 也 可 以 分 为 局 部 遍 与 全 


一 个 优化 能 做 到 以 不 变 应 万 变 。 


局 裔 ， 即 局 部 复写 传播 与 全 局 复写 传播 。 前 者 是 
基于 基本 块 内 实现 的 ， 而 后 者 是 基于 整个 过 程 讨论 的 。 这 里 ， 就 不 再 详细 分 析 全 局 复写 传播 
但 并 不 是 万 能 的 。 在 一 些 特殊 的 情况 下 ， 复 写 传播 是 可 
法 都 是 针对 某 类 特殊 问题 的 一 种 解决 方案 ， 不 可 能 要 求 


因此 ， 编 译 器 不 必 再 为 这 些 变量 分 配 存 
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在 实践 中 ， 有 些 初 学 者 可 能 试图 使 用 复写 传播 优化 如 图 7-8 所 示 的 结构 。 实 际 上 ， 这 是 
完全 徒劳 的 。 这 种 代码 形态 已 经 不 是 复写 传播 讨论 的 范畴 了 。 读 者 仔细 推 需 复写 传播 的 定 
义 ， 不 难 发 现 ， 定 义 中 非常 明确 地 指出 了 复写 传播 的 前 提 只 是 vs 的 赋值 ， 而 其 中 并 不 能 
含有 其 他 运算 。 当 然 ， 在 图 7-8 中 ， 形 如 基本 块 B2、 
B3 中 的 i 一 it1 也 是 不 能 接受 的 元 余 。 在 现代 编译 技术 
中 ， 通 常 使 用 一 种 称 为 尾 融合 的 算法 来 实现 两 个 复写 赋 
值 的 合并 。 尾 融合 的 基本 思想 就 是 将 B2、B3 这 两 个 基 
本 块 尾部 相同 的 代码 提取 出 来 ， 移 至 另 一 个 新 生成 的 基 
本 块 B5 中 。 删 除 B2、B3 与 B4 的 后 继 关 系 。 同 时 ， 令 
B5 成 为 B2、B3 的 唯一 后 继 基本 块 。 而 B5 的 后 继 基 本 
块 即 为 B2、B3 的 原 后 继 B4。 图 7-8 尾 融 合 的 实例 


7.6.2 复写 传播 的 实现 


复写 传播 对 于 IR 的 级 别 并 没有 太 高 的 要 求 ， 无 论 是 HIR 还 是 LIR， 复 写 传播 通常 都 能 
适应 。 当 然 ， 复 写 传播 的 实现 方式 也 并 不 唯一 。Neo Pascal 使 用 了 一 种 易于 理解 且 便 于 实现 
的 方式 ， 虽 然 它 的 效率 可 能 不 是 最 优 的 。 就 算法 实现 而 言 ，Neo Pascal 的 复写 传播 与 常量 传 
播 是 极其 类 似 的， 也 是 基于 ud 链 完成 的 。 下 面 ， 就 来 详细 分 析 相 关 实现 。 


程序 7-13 Copy_Prop.cpp 
1 void CCopy_Prop::Copy_Prop(int iProcIndex) 


2 { 
3 bool bChange=true; 
4 while (bChange) 
5 { 
6 bChange=false; 
7 for (int 1=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m_ Codes.size();i++) 
8 { 
9 IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[i]; 
10 Opti_Tbl* TmpOpti; 
11 if (TmpIR->m eOpType= =OpType::ASM) 
也 continue; 
13 if (TmpIR->m eOpType<0) 
14 TmpOpti=SearchOptiTbl(OpType::TypeCast); 
15 else if (TmpIR->m eOpType>>4= =21) 
16 TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
ly else if (TmpIR->m eOpType>>4<21) 
18 TmpOpti=SearchOptiTbl((OpType)(TmpIR->m _eOpType>>4<<4)); 
19 if (TmpOptil=NULL && TmpOpti->eExpType!=Opti_Tbl::None) 
20 { 
2 让 (GTmpIR->m Op2m iType==OpInfo::VAR && !TmpIR->m Op2.m bRef) 
2 { 
23 bChange[=GenCopyOp(TmpIR->m Op2,iProcIndex); 
24 } 
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2 if (TmpIR->m Opl.m iType==OpInfo::VAR && !ITmpIR->m Opl.m bRef) 
26 { 

2 bChange|=GenCopyOp(TmpIR->m Opl,iProcIndex); 

28 } 

29 } 

30 } 

31 } 

32 } 


第 3 行 : 初始 化 复写 传播 的 结束 标志 。 与 许多 优化 算法 一 样 ， 复 写 传播 通常 会 进行 多 遍 
习 描 处 理 ， 直 到 进入 稳定 状态 为 止 。 

第 4 行 : 判断 复写 传播 是 否 结束 。 

第 7~30 行 : 遍历 IR 列表 。 

第 9 行 : 获取 当前 代 。 

第 11 一 12 行 : 略 过 内 内 汇编 代码 。 

第 13 一 18 行 : 获取 处 理 方案 。 

第 21 行 : 判断 m_Op2 是 否 需 要 进行 复写 传播 优化 。 通 常 ， 要 满足 如 下 两 个 条 件 : 

(1) 操作 数 必须 为 变量 ， 即 m_iType==OpInfo::VAR。 

(2) 操作 数 不 允 许 是 间接 寻 址 ， 即 m_bRef 为 false。 

第 23 行 : 调用 GenCopyOp 函数 进行 复写 传播 。GenCopyOp 函数 声明 形式 如 下 : 


【声明 7-11】 
bool CCopy_Prop::GenCopyOp(OpInfo &Op,int iProcIndex) 


注意 ， 参 数 Op 为 引用 传递 ， 也 就 是 说 ， 如 果 给 定 操 作 数 的 所 有 ud 点 都 满足 复写 传播 
的 要 求 ， 那 么 ，GenCopyOp 将 通过 修改 Op 的 属性 ， 以 实现 复写 传播 的 目的 。 函 数 的 返回 
值 用 于 标识 实 参 操作 数 在 复写 传播 过 程 中 是 否 被 修改 。 关 于 GenCopyOp 函数 的 实现 ， 稍 后 
详解 。 

第 25 一 28 行 : 判断 m_Opl 是 否 需 要 进行 复写 传播 优化 。 如 满足 以 上 两 个 条 件 ， 即 调用 
GenCopyOp 函数 进行 复写 传播 。 

下 面 来 看 看 GenCopyOp 函数 的 实现 ， 这 是 复写 传播 的 核心 。 


程序 7-14 Copy_Prop.cpp 
1 bool CCopy_Prop::GenCopyOp(OpInfo &Op,int iProcIndex) 


2 
3 bool first=true; 
4 int 1Val=-1; 
5 for(int 1=0;i<Op.m_udChain.size();i++) 
6 { 
了 IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.atGiProcIndex) 
8 .m Codes[Op.m udChain[i]]; 
9 Opti_Tbl* TmpOpti; 
10 if (TmpIR->m eOpType<0) 


这 
ME 


TmpOpti=SearchOptiTbl(OpType::TypeCast); 
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12 
13 
14 
lS 
16 
17 
18 
19 
20 
21 
22 
2 
24 
2 
26 
2 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
89 
40 


else if (TmpIR->m eOpType>>4>=21) 
TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
else if (TmpIR->m eOpType>>4<21) 


TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType>>4<<4)); 
if (TmpOptil=NULL && TmpOpti->eConstPropType!=Opti Tbl::None) 


{ 
if (TmpIR->m Opl.m iType==OpInfo::VAR) 
{ 
if (TmpIR->m Opl.m bRef|| TmpIR->m Rslt.m bRef) 
return false; 
if (first) 
{ 
iVal=TmpIR->m Opl.m iLink; 
first=false; 
} 
else 
if (iVall=TmpIR->m Opl.m iLink) 
{ 
return false; 
} 
} 
else 
return false; 
} 
else 
return false; 
} 
if (iVal==-1) 
return false; 


Op.m udChain.clear(); 
Op.m iLink=iVal; 
bOptiChanged=true; 
return true; 


= 一 


第 5 行 :遍历 操作 数 的 ud 链 信息 。 


第 7 行 : 
第 10 一 15 行 : 
第 16 一 37 行 : 
个 条 件 


( 


(2) 


i 


332 


1) 


根据 ud 链 中 的 定 值 点 信息 ， 获 取 相应 的 IR。 


获取 处 理 方案 。 


逐一 判断 ud 链 各 定 值 点 是 否 满足 复写 传播 的 基本 要 求 ， 


lm 


判断 定 值 点 IR 的 m_Opl 是 否 为 变 


I 


了 于: 判断 定 值 点 IR 的 m_ Opl、m Rslt 是 否 为 间接 寻 址 。 


琳 
(3) 第 22 一 31 行 : 判断 各 定 值 点 的 m_Opl 所 示 的 变量 是 否 相 同 ， 只 需 
生 即 可 。 


主要 判断 如 下 三 


比较 m_iLink 属 


逐一 


采 对 


的 要 求 。 


第 39 一 40 行 : 这 个 直 结 构 主要 
进行 复写 传播 


， 这 个 for 循环 能 够 了 


第 41 行 : 
第 42 行 : 


判断 比较 的 过 程 中 ， 如 出 ] 


的 。 


清空 Op 的 ud 链 。 


设置 m iLink 属性 。 


7.7 ”代数 简化 


7.7.1 


联想 起 深奥 的 数学 ，x 


代数 简化 基础 

代数 简化 (algebraic simplification〉 也 称 “ 代 数 化 简 ”， 
符 及 操作 数 的 特殊 组 合 的 代数 性 质 来 简化 表达 式 的 
道 代 数 简化 背后 蕴含 着 复杂 的 数学 到 


尚 不 敢 确 定 代 数 简化 是 不 是 最 简单 的 优化 
先 来 看 一 


些 简单 等 式 : 


了 


E 常 结束 即 表 明 给 定 操作 数 ud 链 的 各 定 值 点 完全 满 


于 处 理 操作 数 的 ud 链 为 空 的 情况 。 


Fo 


其 基 


E 论 吗 ? 
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岗 不 满足 复写 传播 要 求 的 情形 ， 则 立刻 返回 false。 也 


足 复写 传播 


这 种 情 


况 是 不 需要 


1+0=1、1-0=1、1*1=1、1/1=1、b or true=true、b and false=false、b shr 0=b 


思想 就 是 利用 运算 符 或 运 
多 式 。 初 次 接触 这 个 定义 的 读者 可 能 会 
事实 恰恰 相反 。 虽 然 笔者 
法 ， 但 至 少 也 是 最 简单 的 优化 算法 之 一 。 


从 数学 上 来 说 ， 这 些 式 子 都 是 成 立 的 。 而 代数 简化 就 是 利用 这 些 简 单 等 式 的 性 质 ， 达 到 简化 
代码 的 效果 。 例 如 ， 可 以 将 y 一 x or true 转换 为 ytrue。 同 样 ， 也 可 以 将 p 一 q+0 转换 为 p 一 


q。 当 然 ， 在 数学 中 ， 类 似 的 等 式 是 常见 的 ， 因 此 ， 其 规模 可 能 非常 庞大 ， 试 图 逐一 枚 举 恐 
怕 并 非 易 事 。 这 里 ， 笔 者 并 不 打算 列举 各 种 代数 简化 等 式 ， 当 然 ， 这 样 做 的 本 身 意义 也 并 不 
大 。 代 数 简化 的 意义 就 是 简化 表达 式 的 运算 ， 这 应 该 不 难 理解 。 

有 些 代数 简化 也 可 以 看 成 是 强度 削弱 ， 即 用 一 种 计算 速度 较 快 的 运算 来 蔡 代 另 一 种 相对 
较 慢 的 运算 。 例 如 ， 可 以 将 i*8 转换 为 i shl 3。 这 种 转换 的 主要 原因 就 是 移 位 运 


远 远 超过 乘 、 除 运算 。 在 一 些 RISC 结构 的 目标 机 中 ， 强 度 削弱 的 应 用 是 非常 广泛 
目标 机 指令 系统 可 能 不 支持 某 些 复杂 的 运算 指令 ， 此 时 ， 强 度 削 弱 的 蔡 换 思想 就 是 不 错 的 应 


代 蔡 。 而 ti*7 可 以 用 


来 代替 。 当 然 ， 强 度 前 弱 并 不 
生成 阶段 的 效果 可 


对 之 策 。 最 常见 的 是 用 一 串 移 位 和 加 、 减 运 


局 限于 优化 阶段 。 实 践 证 
能 会 更 佳 。 下 面 ， 来 看 一 个 代数 简化 的 实例 。 


t<* ishl2 、t<et+l 


t<* ishl3 、 tt-i 


例 7-6 代数 简化 的 实例 。 见 表 7-8。 
代数 简化 通常 只 针对 一 条 IR 进行 操作 ， 并 不 会 影 


特点 。 在 这 个 实例 中 ， 代 数 简化 算法 主要 作 月 
一 次 化 简 稍 作 解 释 。 


来 替代 乘 、 


的 速度 要 


ID 


。 例 如 


，t<-ix*s 可 以 用 


的 。 由 于 


朋 ， 有 些 强度 削弱 的 思想 应 


在 代码 


响 上 下 文 。 这 是 代数 简化 的 一 个 重要 


于 三 条 了 及 上 ， 即 第 2、5、9 行 了 月。 下 面 对 每 
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表 7-8 代数 简化 的 实例 分 析 


(c) 代数 简化 后 的 天 


(a) 输入 源 程序 (b) 原始 的 食 

Var a,b:integer; 0: (ByteToInt ,1,null, T1) 0: 
begin 1: (MR 4 ,A，T1，T0) ]1; 
if (a>1) and false then 2: (AND 0 ,_T0,FALSE, 12) 2: 
a:=1*b; 3: (NT ,_T2,null, L3) 3: 
a:=b*4; 4: (ByteTomt ,1 ,null, T6) 4: 
result:=a; 3 (MUL 4 ,_T6,B, T5) 5. 
end; 6: (ASSIGN 4 ,_T5,null,A) 6: 
7: (LABEL ,_L3,null,null) J 
8: (ByteTomt ,4,null, T8) 8: 
9: (MUL 4 ,B, T8, T7) 9: 

10: (ASSIGN 4 ,_T7,null,A) 10: 

11: (ASSIGN 4 ,A,null,RESULT) 11: 


的 是 ， 这 一 
式 ， 这 种 形式 最 有 利 


(ByteTomt ,1,null, T1) 

(MR 4 ,A,l, TO0) 
(ASSIGN 1 ,FALSE,null, T2) 
(NT ,_T2,null, L3) 
(ByteTolInt ,1,null, T6) 
(ASSIGN 4 ,B,null, T5) 
(ASSIGN 4 ,_TS,null,A) 
(LABEL ,LL3,null,null) 
(ByteTolInt ,4,null, T8) 

(SHL 4 ,B,2, _T7) 
(ASSIGN 4 ,_T7,null,A) 
(ASSIGN 4 ,_T7,null,RESULT) 


第 2 行 的 化 简 依 据 就 是 等 式 iand false=false， 这 显然 是 成 立 的 。 


办 


第 5 行 的 化 简 依据 就 是 等 式 1i* 1=i。 当 然 ， 这 是 基于 常量 传播 后 才能 化 简 的 。 


第 9 行 的 化 简 依 据 就 是 等 式 i* 4=i shl2。 同 样 ， 这 也 是 基于 常量 传播 后 才能 化 简 的 。 


仅 从 这 个 实例 分 析 ， 似 乎 并 没有 看 到 代数 简化 的 明显 优势 。 除 了 强度 前 弱 之 外 ， 更 重要 


裔 代数 简化 为 常量 传播 创造 了 新 的 机 会 。 例 如 ， 


将 第 2、5 行 都 蔡 换 成 了 赋值 形 


进行 常量 传播 。 在 实践 中 ， 这 种 渐进 式 的 改善 是 非常 有 效 的 ， 许 多 看 


将 整个 让 语句 删除 ， 这 个 效果 应 该 是 令 人 满意 的 。 


代数 简化 一 般 都 是 针对 某 一 条 IR i 


过 ， 笔 者 还 是 推荐 使 用 HIR 或 MIR 实现 代数 简化 ， 那 样 可 


7.7.2 代数 简化 的 实现 


持 。 


从 算法 实现 上 来 说 ， 代 数 简化 是 一 种 代价 极 小 的 优化 算法 ， 甚 至 不 需要 数据 流 分 析 的 支 


行 的 ， 所 以 不 必 过 多 考虑 基本 块 或 其 他 流 图 的 因 


素 。 当 然 ， 代 数 简化 也 不 太 关注 IR 的 级 别 ， 一 般 而 言 ，HIR 或 LIR 都 是 可 以 接受 的 。 不 


似 棘 手 的 问题 可 能 在 无 意 间 就 被 化 解 了 。 在 本 例 中 ， 最 终 可 以 借助 于 这 种 渐进 式 优化 的 思想 


能 会 得 到 更 好 的 优化 效果 。 


设计 代数 简化 算法 时 ， 有 个 问题 需要 注意 ， 就 是 不 要 把 代数 简化 过 于 神化 了 。 事 实 上 ， 


试图 运 


难度 ， 而 且 也 会 影响 算法 执行 的 效率 。 这 上 


不 力求 解决 那些 复杂 的 运算 化 简 问题 。 


是 最 常见 的 代数 折 


另外 ， 还 应 该 注意 一 些 特定 的 代数 性 质 ， 例 如 运算 的 交换 律 、 结 合 律 等 。 其 中 


代数 简化 解雇 一切 运算 化 简 的 问题 是 徒劳 的 。 这 种 想法 不 但 会 大 大 增加 算法 设计 的 
已 ，Neo Pascal 只 实现 了 一 个 简单 的 算法 框架 ， 并 


EFE 质 。 在 很 多 情况 下 ， 如 果 交 换 律 处 理 得 


不 好 ， 就 会 使 源 代码 变 得 极其 元 


长 。 当 然 ， 要 解决 这 类 问题 的 方法 是 非常 简单 的 ， 笔 者 将 在 源 代码 分 析 中 详 述 。 
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程序 7-15 IRSimplify.cpp 
1 void CIRSimplify::AlgebraicSimplify(int iProcIndex) 


{ 


上 hiP 


{ 


if Num2Bit.empty()) 


int j=1; 
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for(int i=1;1<31;i++) 


{ 


} 


jj)*2,; 
Num2Bit.insert(pair<int,int>(0],i)); 


for (int 1=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size();i++) 


{ 


IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[i]; 
Opti_Tbl* TmpOpti; 
if (TmpIR->m eOpType<0) 


TmpOpti=SearchOptiTbl(OpType::TypeCast); 


else if (TmpIR->m eOpType>>4>=21) 


TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 


else if (TmpIR->m eOpType>>4<21) 


TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType)); 


if (TmpOptil=NULL && TmpOpti->eAlgebraicProcess!=Opti_Tbl::None) 


{ 


if (TmpOpti->eCommutative==Opti_Tbl::Commutative) 
{ 
if (TmpIR->m Opl.m iType==OpInfo::CONST) 
{ 
OpInfo TmpOp=TmpIR->m Op!l; 
TmpIR->m Opl=TmpIR->m Op2; 
TmpIR->m Op2=TmpOp; 


} 
} 
if ((TmpIR->m eOpType>>4<<4) 一 OpType::ADDD) 
{ 
if (TmpIR->m Op2.m iType==OpInfo::CONST && 
SymbolIblConstmfoTbl[TmpIR->m Op2.m iLinkl.m fval 一 0) 
{ 
TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 
bOptiChanged=true; 
continue; 
} 
} 


if ((TmpIR->m eOpType>>4<<4)—OpType::SUBI) 
{ 
if (TmpIR->m Op2.m iType==OpInfo::CONST && 
SymbolTbl.ConstInfoTbl[TmpIR->m Op2.m iLinkl.m fVal==0) 


TmpIR->m eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 


335 


[ 8 i 
罗 、 ”编译 器 设计 之 路 
Ci 


51 
52 
53 
54 
53 
56 
3 
58 
S59 
60 
01 
62 
63 
64 
65 
00 
07 
08 
69 
70 
71 
虽 
13 
74 
79 
76 
WW 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
98 
94 
95 
96 


336 


bOptiChanged=true; 


continue; 


} 

if ((TmpIR->m eOpType>>4<<4)—OpType::DIVI | 
(TmpIR->m eOpType>>4<<4)==OpType::MOD || 
(TmpIR->m eOpType>>4<<4)==OpType::MULI ) 


if (TmpIR->m Op2.m iType==OpInfo::CONST && 
SymbolTbl.ConstInfoTbl[TmpIR->m Op2.m iLinkl.m fVal==1) 


TmpIR->m eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 
bOptiChanged=true; 


continue; 


} 
ff((TmpIR->m eOpType==OpType::MUL NETmpIR->m eOpType==OpTIype:DIV 4)&& 
(TmpIR->m Op2.m iType==OpInfo::CONST)) 


map<int,int>::iterator it=Num2Bit.find(SymbolTbl 
.ConstInfoTbl[TmpIR->m Op2.m iLinkl.m iVal); 
if (it!=Num2Bit.end()) 
{ 
ConstInfo TmpConst=SymbolTbl.ConstInfoTbl[ TmpIR->m Op2m iLink]; 
TmpConst.m iVal=it->second,; 
TmpConst.m szName=itos(it->second); 
TmpIR->m Op2.m iLink=SymbolTbl.RecConstTbl(TmpConst); 
if (TmpIR->m eOpType==OpType::MUL 4) 
TmpIR->m eOpType=OpType::SHL 4; 
else 
TmpIR->m eOpType=OpType::SHR 4; 


continue; 


} 
if ((TmpIR->m eOpType>>4<<4)—OpType::SHL || 
(TmpIR->m eOpType>>4<<4)==OpType::SHR) 


if (TmpIR->m Op2.m iType==OpInfo::CONST && 
SymbolTbl.ConstInfoTbl[TmpIR->m Op2.m iLinkl.m iVal==0) 


TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m iType=OplInfo::NONE,; 
bOptiChanged=true; 


continue; 


97 

98 
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118 
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19 
123 
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if ((TmpIR->m eOpType>>4<<4)—OpType::OR) 


{ 


} 


if (TmpIR->m Op2.m iType==OpInfo::VAR && 
TmpIR->m Opl.m iType==OpInfo::VAR && 
TmpIR->m Opl.m iLink==TmpIR->m Opl.m iLink) 


TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 
bOptiChanged=true; 
continue; 

} 

if (TmpIR->m Op2.m iType==OpInfo::CONST && 
SymbolIblConstmfoTbl[TmpIR->m Op2.m iLinkl.m bVal 一 false) 


TmpIR->m_eOpType=(OpType)ImpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 
bOptiChanged=true; 
continue; 

} 

if ((TmpIR->m Op2.m iType—OpInfo::CONST && 
SymbolTbl.ConstInfoTbl[TmpIR->m Op2.m iLink].m bVal 一 tmue)) 


TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Opl=TmpIR->m Op2; 

TmpIR->m Op2.m_iType=OpInfo::NONE; 
bOptiChanged=true; 


continue; 


if ((TmpIR->m eOpType>>4<<4) 一 OpType::AND) 


{ 


if (TmpIR->m Op2.m iType==OpInfo::VAR KK 
TmpIR->m Opl.m iType==OpInfo::VAR && 
TmpIR->m Opl.m iLink==TmpIR->m Opl.m iLink) 


TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 
bOptiChanged=true; 
continue; 

} 

if (TmpIR->m Op2.m iType==OpInfo::CONST && 
SymbolTbl.ConstInfoTbl[TmpIR->m Op2.m iLinkl.m bVal==true) 


TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
TmpIR->m Op2.m_iType=OpInfo::NONE; 
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143 bOptiChanged=true; 

144 continue; 

145 } 

146 if (TmpIR->m Op2.m iType==OpInfo::CONST && 

147 SymbolTbl.ConstInfoTbl[TmpIR->m Op2.m iLink].m bVal 一 false) 
148 { 

149 TmpIR->m _eOpType=(OpType)TmpOpti->eAlgebraicProcess; 
150 TmpIR->m Opl=TmpIR->m Op2; 

151 TmpIR->m Op2.m_iType=OpInfo::NONE; 

S22 bOptiChanged=true; 

ES continue; 

154 } 

155 } 

156 } 

157 

158 } 


第 3 一 10 行 : 主要 用 于 初始 化 Num2Bit 映射 表 。 这 个 表 描 述 的 就 是 乘 、 除 运算 中 特定 
常量 与 相应 移 位 运算 的 位 数 之 间 的 关系 。 例 如 ，n*8=n shl 3， 就 可 以 将 <8，3> 存 入 Num2Bit 
备用 。 有 读者 可 能 有 疑问 ， 为 什么 不 直接 使 用 log 函数 计算 呢 ? 主 要 是 考虑 到 log 函数 的 结 
果 是 浮 点 数 ， 而 细小 误差 可 能 会 导致 非常 严重 的 错误 。 

第 12 行 : 遍历 IR 列表 。 

第 14 行 : 获取 当前 下。 

第 16 一 21 行 : 获取 处 理 方案 。 

第 24~32 行 : 如 果 运 算是 满足 交换 律 的 ， 则 将 下 中 常量 操作 数 统一 置 于 操作 数 2 中 。 
这 样 做 可 以 避免 编写 许多 不 必要 的 判断 及 处 理 。 当 然 ， 这 项 工作 也 可 以 在 生成 IR 时 完成 。 
里 论 上 讲 ， 操 作 数 1、 操 作 数 2 都 是 常量 的 人 是 不 存在 的 ， 应 该 已 经 被 常量 折 半 优化 了 。 

第 3 一 42 行 : 依据 等 式 i+0=i， 将 及 转换 为 赋值 形式 。 这 里 ， 不 必 考 虑 0+i=i 的 情况 ， 
因为 在 第 24 一 32 行 中 已 经 进行 了 操作 数 交 换 。 以 下 满足 交换 律 的 等 式 的 处 理 方法 类 似 。 

第 46 一 53 行 : 依据 等 式 i-0=i， 将 IR 转换 为 赋值 形式 。 
第 59 一 66 行 : 依据 等 式 i*1=i、idiv 1=i、imod 1=i， 将 IR 转换 为 赋值 形式 。 
第 71 一 84 行 : 将 乘 以 、 除 以 一 个 常量 2 的 了 豚 转 换 为 移 位 IR。 

第 89 一 96 行 : 依据 等 式 ishl 0=i、i shr 0=i， 将 信 转换 为 赋值 形式 。 

第 100 一 108 行 : 依据 等 式 ior Fi， 将 及 转换 为 赋值 形式 。 
第 109 一 116 行 : 依据 等 式 ior false=i， 将 及 转换 为 赋值 形式 。 
第 117 一 125 依据 等 式 ior true=true， 将 及 转换 为 赋值 形式 。 
第 129 一 137 依据 等 式 iand i=i， 将 下 转换 为 赋值 形式 。 

第 138 一 145 行 : 依据 等 式 iand true=i， 将 及 转换 为 赋值 形式 。 

第 146 一 164 行 : 依据 等 式 iand false=false， 将 及 转换 为 赋值 形式 。 
关于 代数 简化 的 实现 ， 就 讨论 至 此 。 
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7.8.1” 跳 转 优 化 基础 
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严格 地 说 ， 跳 转 优化 jump optimization ) 并 不 是 特 指 某 一 个 优化 算法 ， 而 是 一 类 优化 


算法 的 总 称 ， 它 们 能 够 完成 大 多 数 分 支 、 跳 转 相 关 的 优化 工作 ， 有 时 ， 亦 称 为 “分 支 优 


化 ” 与 先前 讨论 的 优化 算法 不 同 ， 跳 转 优化 是 比较 典型 的 控制 流 优化 算法 。 因 此 ， 它 基本 


上 都 是 基于 流 图 进行 的 ， 很 少 依赖 于 数据 流 分 析 的 支持 。 在 实 


二 
二 


践 中 ， 虽 然 跳 转 优 化 经 常 被 应 


用 于 IR 优化 及 目标 代码 优化 中 ， 但 并 不 太 适 用 于 HIR。 现 代 编 译 技术 的 观点 认为 跳 转 优化 


的 最 佳 时 刻 是 在 代码 最 终 形态 基本 确定 之 后 。 


实际 上 ， 跳 转 优 化 的 思想 并 不 复杂 ， 已 经 成 为 了 编程 的 规范 ， 只 是 读者 并 没有 察觉 而 


已 。 下 面 ， 来 谈 两 个 最 常见 的 跳 转 优化 方案 。 
1. 条 件 跳 转 优化 


有 一 个 事实 是 不 得 不 承认 的 ， 那 就 是 条 件 跳 转 的 复杂 程度 
上 ， 条 件 跳 转 优 化 的 思想 是 非常 简单 的 ， 就 是 将 永 真 或 永 假 的 
或 者 将 其 删除 。 首 先 ， 读 者 可 能 会 有 一 个 疑问 ， 即 永 真 或 永 假 
肯定 的 。 在 IR 生成 过 程 中 ， 编 译 器 设计 者 会 避免 永 真 或 永 假 


要 远 远大 于 无 条 件 跳 转 。 实 际 
条 件 跳 转 蔡 代为 无 条 件 跳 转 ， 
的 条 件 跳 转 是 否 存在 ? 回答 是 
的 条 件 跳 转 ， 保 证 原始 生成 的 


IR 不 存在 此 类 跳 转 。 但 是 ， 常 量 传播 、 常 量 折 胎 以 及 代数 简化 等 算法 为 我 们 做 了 很 多 工作 ， 


因此 ， 现 阶段 的 下 与 原始 生成 的 及 相 比 ， 早 已 是 面目 全 非 了 。 


一 般 来 说 ， 针 对 永 真 或 永 假 的 条 件 跳 转 ， 主 要 采用 如 表 7-9 所 示 的 优化 方式 。 从 表面 上 
来 看 ， 这 种 跳 转 优化 的 意义 可 能 难以 理解 ， 尤 其 是 将 J、JNT 转换 为 JMP， 似 乎 并 没有 节 


省 任何 了 豚 。 不 过 ， 这 种 优化 对 于 检测 不 可 到 达 代 码 的 作用 是 非常 显著 的 。 举 个 简单 的 例 


子 ， 读 者 应 该 不 难 想象 ， 假 设 把 JT 转换 为 MP， 那 么 ， 就 意味 着 JT 跳 转 的 假 分 支 代 码 极 
有 可 能 变 成 不 可 到 达 代码 。 同 样 ，JNT 的 情况 也 是 类 似 的 。 下 面 ， 来 看 一 个 条 件 跳 转 优化 


的 实例 。 
表 7-9 条 件 跳 转 的 优化 方式 
原始 及 优化 方式 
JNT true Label 删除 当前 下 


JNT false Label 


替换 为 JMP Label 


JT true Label 替换 为 JMP Label 
JT false Label 删除 当前 下 


例 7-7 条 件 跳 转 优化 的 实例 。 见 表 7-10。 


正如 先前 所 述 ， 基 于 原始 IR 直接 讨论 条 件 跳 转 优化 的 意 


义 并 不 大 。 通 常 ， 条 件 跳 转 优 


化 的 基本 环境 是 由 其 他 IR 优化 算法 创造 的 ， 而 不 是 来 自 原始 


始 的 IR 形式 。 在 本 例 中 ， 不 难 发 现 ，(c) 列 中 的 第 3、4、5 行 IR 都 是 不 可 到 达 代码 ， 也 就 是 


IR。 因 此 ， 笔 者 并 没有 给 出 原 


在 任何 情况 下 都 无 法 执行 的 代码 。 在 稍 后 的 不 可 到 达 代 码 删除 优化 中 ， 就 可 以 将 这 部 分 代码 


删除 。 
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(a) 输入 源 程序 


条 件 跳 转 优化 的 实 


(b) 条 件 跳 转 优化 前 的 下 


(c) 条 件 跳 转 优化 后 的 下 


var a,b,c,d:integer; 

begin 

a:=2; 

if (a<1) then 
a:=b+c+d; 

result:=a; 


end; 


表 7-10 

0: (ASSIGN 4 

l: (ASSIGN 1 

2: (NT 

3: (ADD 4 

4: (ADD 4 

5: (ASSIGN 4 

6: (LABEL 

2 (ASSIGN 4 


2. 连续 跳 转 优 化 


从 一 条 跳 转 指令 转移 到 另 一 条 跳 转 指令 的 情况 


生成 策略 时 。 


例如 : 


JNT < 条 件 > Ll 


L2: 


不 难 发 现 ， 由 
JNT 指令 的 目 


,2,null,A) 
,FALSE,null, T1) 
,FALSE,null, _L3) 
,B,C, _T5) 

,_T5,D, T6) 
,_T6,null,A) 
,LL3,null,null) 
,A,null,RESULT) 


= 
候 


于 JNT 指令 的 跳 转 目 标 Ll1 处 的 指令 是 另 


并 不 依赖 于 JNT 指令 中 的 条 件 值 


标 直接 设 为 JMP 


指令 的 目 


。 与 条 件 跳 转 优 化 不 同 ， 连 续 跳 转 优 化 并 


到 达 代码 情 


续 跳 转 优化 问 
查看 每 一 条 跳 


题 。 在 IR 


转 的 目标 是 不 是 另 


如 表 7-11 所 示 的 几 种。 


标 ， 以 减少 目 


例 方 式 

0: (ASSIGN 4 
1: (ASSIGN 1 
2: (JIMP 

3: (ADD 4 

4: (ADD 4 

5: (ASSIGN 4 
6: (LABEL 

7: (ASSIGN 4 


一 条 无 条 件 跳 转 ， 
标 程序 中 元 余 的 旭 


,2.nulLA) 
,FALSE,null, T1) 
,LL3,null,null) 
,B,C, T5) 
,_T5,D, T6) 
,_T6,null,A) 
,LL3,null,null) 
,A,null,RESULT) 


极其 常见 的 ， 尤 其 是 当 采 用 简单 的 代码 


因此 ， 完 全 可 以 将 
kt 转 指令 。 这 种 替换 


F 不 会 创造 新 的 不 可 


攻 ， 它 仅仅 是 通过 优化 跳 转 的 形式 ， 以 提高 目标 程 
连续 跳 转 优 化 既 可 以 适用 于 IR， 也 可 以 适用 于 目 


标 代 码 。 这 里 ， 
I 表 中 ， 试 图 检测 代码 中 的 连续 跳 转 情 
条 跳 转 指令 即 可 。 一 般 来 说 ， 可 以 将 连续 跳 转 的 情形 分 为 


序 的 执行 效率 。 
只 讨论 人 优化 中 的 连 


区 并 不 复杂 ， 只 需要 简单 地 


表 7-11 连续 跳 转 优化 的 方案 
JMP Ll JMP Ll JNT < 条 件 > L1 JNT < 条 件 > L1 

原 L1 | L1 EE EE ee | 

台 JMP 工 2 JNT < 条 件 > L2 JMP L2 JNT < 条 件 > L2 
IR wp 

12 L2: L2: L2: 

跳 JMP L2 JNT < 条 件 > L2 NI 
转 nL mk 人 
优 IMP L2 ”JNT < 条 件 > L2 JMP E92 
化 | | 根据 实际 情况 而 定 
后 | L2: TI2 L2: 

的 | 
IR 

加 这 里 仅 以 JNT 指令 代表 条 件 跳 转 。 
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前 三 种 连续 跳 转 情形 的 优化 方案 是 不 需要 作 任 何 论证 的 ， 它 也 不 依赖 于 JNT 指令 的 条 
件 值 ， 因 此 ， 相 关 实 现 也 是 非常 简单 的 。 下 面 ， 来 分 析 最 后 一 种 情形 。 

最 后 一 种 情形 比较 复杂 ， 并 不 是 在 任何 情况 下 都 可 以 优化 的 。 仅 当 两 个 条 件 都 为 真 时 ， 
才 可 能 优化 。 看 似 这 个 要 求 并 不 苛刻 ， 不 过 ， 稍 加 思考 后 ， 不 难 发 现 ， 在 编译 阶段 ， 试 图 确 
定 两 个 条 件 是 否 同 时 为 真 并 不 是 一 件 容 易 的 事情 。 当 然 ， 这 里 并 不 考虑 两 个 条 件 为 布尔 常量 
的 情况 ， 假 设 编译 器 是 无 法 计算 出 这 两 个 条 件 的 实际 取 值 的 。 那 么 ， 在 很 多 情况 下 ， 编 译 器 
将 无 法 作出 两 个 条 件 是 否 同 为 真 的 判定 。 注 意 ， 这 个 问题 的 关键 就 在 于 “很 多 情况 ” 而 不 
是 绝对 不 可 能 。 有 读者 可 能 会 有 疑惑 ， 既 然 两 个 条 件 的 实际 取 值 都 不 知道 ， 那 么 ， 如 何 判定 
它们 是 否 同 为 真 呢 ? 事实 上 ， 在 特定 的 情况 下 ， 这 是 可 能 的 。 例 如 : 


ifa==1 goto Ll 


编译 器 并 不 能 预知 a==1、a>=0 的 实际 取 值 ， 但 可 以 得 到 一 个 结论 ， 即 当 a==1 为 真 ， 则 
a>=0 必定 为 真 。 因此， 可 以 将 第 1 行 代码 优化 为 “ifa==1 goto L2”。 当然 ， 在 更 多 情况 下 ， 
这 个 问题 是 不 可 判定 的 。 例 如 : 


if a==0 goto L1 


编译 器 试图 确定 a==0 与 b==0 的 取 值 关系 是 不 可 能 的 。 理 论 上 说 ， 在 特殊 条 件 下 ， 这 种 优化 
方式 是 可 行 的 。 但 从 实现 的 角度 来 说 ， 在 无 法 计算 实际 取 值 的 情况 下 ， 设 计 一 个 判断 两 个 条 
件 是 否 同 时 为 真 的 算法 是 非常 困难 的 。 而 且 其 优化 的 效果 也 十 分 有 限 。 因 此 ， 即 使 是 VC++ 
之 类 的 商用 编译 器 也 没有 做 相关 分 析 与 优化 。 
7.8.2 条 件 跳 转 优化 的 实现 

笔者 必须 说 明 一 点 ， 在 Neo Pascal 中 ， 虽 然 下 指令 也 是 条 件 跳 转 了 及， 但 是 并 不 做 优化 
处 理 。 因 为 更 指令 仅仅 应 用 于 CASE 语句 翻译 ， 而 CASE 语句 的 优化 思想 与 条 件 跳 转 优 化 
是 大 相 径 庭 的 ， 所 以 本 小 节 并 不 涉及 相关 内 容 与 技术 。 下 面 ， 来 看 看 条 件 跳 转 优化 的 源 代码 
实现 。 


程序 7-16 IRSimplify.cpp 

1 void CIRSimplify::IRSimplify(int iProcIndex) 

2 

3 vector<IRCode> TmpCodes; 

4 bool bFlag=false; 

5 for (int 1=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size();i++) 

6 { 
了 IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[i]; 
8 if (TmpIR->m eOpType==OpType::JNT) 
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9 { 
10 if (TmpIR->m Opl.m iType==OpInfo::CONST) 
11 { 
12 if (SymbolTbl.ConstInfoTbl.at(TmpIR->m Opl.m iLink).m bVal==false) 
13 { 
14 TmpIR->m eOpType=OpType::JMP; 
15 TmpIR->m Opl=TmpIR->m Rslt; 
16 TmpIR->m Rslt.m iType=OpInfo::NONE; 
17 bOptiChanged=true; 
18 } 
19 else 
20 { 
21 bFlag=true; 
22 continue; 
23 } 
24 } 
235 } 
26 if (TmpIR->m eOpType==OpType::JT) 
2 { 
28 if (TmpIR->m Opl.m iType==OpInfo::CONST) 
29 { 
30 if (SymbolTbl.ConstInfoTbl.at(TmpIR->m Opl.m iLink).m bVal=—true) 
31 { 
3 TmpIR->m eOpType=OpType::JMP; 
33 TmpIR->m Opl=TmpIR->m Rslt; 
34 TmpIR->m Rslt.m iType=OpInfo::NONE,; 
35 bOptiChanged=true; 
36 } 
37 else 
38 { 
39 bFlag=true; 
40 continue; 
41 } 
42 } 
43 } 
44 TmpCodes.push back(*TmpIR); 
45 } 
46 if (bFlag) 
47 SymbolTbl.ProcInfoTbl.atiProcIndex).m Codes=TmpCodes; 
48 } 

第 5 一 45 行 : 遍历 IR 序列， 逐一 判断 IR 是 否 满足 条 件 跳 转 优化 的 要 求 ， 如 满足 则 进行 

优化 。 


第 7 行 : 获取 当前 IR。 
第 8 行 : 判断 当前 IR 是 否 为 JNT 指令 。 
第 10 行 : 判断 当前 下 的 m_Opl 是 否 为 常量 。 如 果 是 变量 ， 则 不 满足 跳 转 优化 的 要 求 。 
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第 12 行 : 判断 m_Op1l 的 值 是 否 为 false。 
第 13 一 18 行 : 当前 IR 的 


一 步 优化 。 


第 21 一 23 行 : 


现 相 应 功能 。 


册 
这 里 是 


完成 后 ， 则 使 用 TmpCodes 吕 


除 当前 玲 。 这 虽 


E 式 为 “JNT FALSE 标号 ”， 
JNT FALSE 标号 一 JMP 标号 
其 中 ， 将 bOptiChanged 置 为 true 表示 本 次 优化 过 程 中 
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的 IR 列表 蔡 代 程序 


代码 发 生 了 变化 ， 以 便 


条 下， 只 需 使 用 continue 语句 ， 保 证 程序 不 执行 第 44 行 代 码 即 可 。 


第 26 行 : 
第 28 行 : 
第 30 行 : 
第 31 一 36 行 : 当前 IR 的 天 


其 中 ， 将 bOptiChanged 置 为 true 表示 本 次 优化 过 程 中 代码 发 生 了 变化 ， 以 便 编译 器 进 


一 步 优化 。 


FE 


判断 m_ Opl 的 1 


判断 当前 IR 是 否 为 本 指令 。 
| 断 当 前 下 的 m_Opl 


是 否 为 true。 


E 式 为 “JT TRUE 标号 多 


JTTRUE 标号 一 JMP 标号 


第 38 一 41 行 : 删除 当前 IR。 


第 44 行 


现 了 删除 IR 的 动作 ， 才 需要 
连续 跳 转 优 化 的 实现 
相 比 条 伯 


7.8.3 


也 
码 实现 。 


程序 7-17 


1 
2 { 
3 
4 
3 
6 
冯 
8 
加 
10 


11 
12 


: 将 当前 I 信 提 


F 跳 转 优 化 而 言 ， 


各 种 连续 跳 转 情况 及 其 优化 策略 ， 相 信和 掌握 


IRSimplify.cpp 


E 置 ， 仪 修改 操 


入 TmpCodes 中 。 
第 46 行 : 根据 bFlag 标志 ， 判 断 是 和 否 习 


续 跳 转 优 化 的 实现 稍 


因此 ， 可 进行 如 下 优化 : 


有 并 没有 直接 将 当前 IR 删除 ， 而 是 通过 continue 语句 
借助 于 临时 代码 列表 TmpCodes 实现 IR 删除 的 ， 即 在 遍历 IR 序列 的 
程 中 ， 将 所 有 需要 的 下 加 入 到 TmpCodes 中 (第 44 行 )， 而 略 过 不 需要 的 信 。 然 后 ， 遍 历 
的 实际 再 序 列 (第 47 行 )。 因 


因此 ， 可 进行 如 下 优化 : 


复杂 。 不 过 ， 读 者 


Vector<IRCode> TmpCodes; 


bool bFlag=false; 


map<int,int> Label Map; 


set<int> bHasVisit; 


void CIRSimplify::JumpSimplify(int iProcIndex) 


for (int 1=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size();i++) 


{ 


只 要 到 
其 源 代码 实现 是 比较 容易 的 。 当 然 ，Neo Pascal 
只 处 理 了 前 三 种 连续 跳 转 的 情况 ， 并 没有 考虑 第 四 种 情况 。 下 面 ， 就 来 详细 看 看 其 源 代 


IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m_Codes[j]; 
if (TmpIR->m eOpType==OpType::LABEL) 
LabelMap.insert(pair<int,int>(TmpIR->m Opl.m iLink,)); 


i 译 器 进 


实 
过 
历 


此 ， 删 除 一 


EE。 如 果 是 变量 ， 则 不 满足 跳 转 优化 的 要 求 。 


日 .不 淳 旺 - 
是 否 为 常量 


E 置 实际 的 IR 列表 。 注 意 ， 只 有 当 遍 历 过 程 中 出 
作 符 、 操 作 数 是 不 需要 重 置 的 。 


解 了 


E 前 的 
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13 
14 
15 
16 
17 
18 
19 
20 
21 
2 
2 
24 
25 
26 
2 
28 
29 
30 
3 
3 
33, 
34 
S35 
36 
3 
38 
39 
40 


的 序 


1 
下 


for (int 1=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size();i++) 


{ 
bHasVisit.clear(); 
IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[i]; 
if (TmpIR->m eOpType>>4!=21) 
continue; 
Opti Tbl* TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
这 (TmpOpti->eJmpType 一 Opti_ Tbl::CondJmp || 
TmpOpti->eJmpType==Opti_ Tbl:NonCondJmp) 
{ 
int j=TmpOpti->eJmpType==Opti_Tbl::NonCondJmp? 
TmpIR->m Opl.m iLink:TmpIR->m Rsltm iLink; 
while (bHasVisit.find(j)==bHasVisit.end()) 
{ 
int k=LabelMap.find(j)->second; 
while (SymbolTbl.ProcInfoTbl.at(iProcIndex) 
.m Codes[k].m eOpType—OpType::LABEL) 
{ 
bHasVisit.insert(SymbolTbl.ProcInfoTbl.at(iProcIndex) 
.m Codes[kl.m Opl.m iLink); 
kr 
if (k==SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size()) 
{ 
break; 
} 
} 
if (k==SymbolTbl.ProcInfoTbl.atGiProcIndex).m Codes.size()|| 
SymbolThl.ProcInfoTbl.atGiProcIndex).m Codes[k].m eOpType!=OpType::JMP) 
{ 
if (TmpOpti->eJmpType==Opti_Tbl::NonCondJmp) 
TmpIR->m Opl=SymbolTbl.ProcInfoTbl 
.at(iProcIndex).m Codes[k-1].m Op!l; 
else 
TmpIR->m Rslt=SymbolTbl.ProcInfoTbl 
.at(iProcIndex).m Codes[k-1].m Op!l; 
} 
else 
j=SymbolThl.ProcInfoTbl.atGProcIndex).m Codes[klm_ Opl.m iLink; 
} 
} 
} 


第 5 行 : LabelMap 主要 用 于 存储 标号 与 其 实际 位 置 的 映射 。 例 如 ，L1 在 标号 信息 表 


局 . 旦 
本 下 


以 


与 其 实际 位 置 的 映射 关系 。 
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6， 而 LABEL L1 语句 在 IR 列表 中 的 实际 位 置 是 8， 那么 ， 就 用 <6，8> 来 描述 标号 
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第 6 行 : bHasVisit 主要 用 于 标识 一 次 连续 跳 转 优化 过 程 中 所 有 已 被 访问 的 标号 ， 人 
个 标号 被 两 次 访问 。 这 主要 是 为 了 防止 在 优化 过 程 中 处 理 环 状 跳 转 结构 时 出 现 死 循环 。 设 置 
bHasVisit 集合 就 可 以 保证 一 个 标号 不 会 被 第 二 次 访问 。 

第 7 一 12 行 : 遍历 人 序列， 设置 标号 的 映射 关系 。 

第 13 行 : 遍历 人民 序 列 。 

第 15 行 : 开始 一 次 新 的 连续 跳 转 优 化 之 前 ， 先 清空 bHasVisit 集合 。 

第 16 行 : 获取 当前 了 下。 

第 19 行 : 获取 处 理 方案 。 

第 23、24 行 : 根据 IR 的 跳 转 类 型 ， 获 取 标 号 的 序号 。 在 JMP 跳 转 人 R 中 ， 标 号 存储 于 
m _Opl 中 。 而 在 JNT、 呈 跳 转 信 中， 标号 存储 于 m Rslt 中 。 

第 25 行 : 检索 连续 跳 转 的 终点 标号 。 

第 27 行 : 根据 LabelMap 的 映射 ， 获 取 当 前 跳 转 IR 的 目的 标号 的 位 置 。 

第 28 一 38 行 : 从 目的 标号 IR 开始 ， 逐 一 向 后 检索 第 一 条 非 标号 及 。 在 此 过 程 中 ， 
将 所 有 访问 过 的 标号 记录 到 bHasVisit 集合 中 。 如 果 检 索 直 至 IR 列表 表 尾 ， 则 退出 while 
循环 。 

第 39、40 行 : 如 果 检 索 到 表 尾 或 第 一 条 非 标 号 民 不 是 JMP， 那 么 ， 本 次 连续 跳 转 优化 
不 必 继 续 进 行 了 ， 直 接 用 新 获取 的 标号 替换 原 IR 中 的 标号 即 可 。 

第 42 一 47 行 : 直接 使 用 顺序 检索 过 程 中 最 后 访问 的 标号 替代 原 蕉 
50 行 : 如 果 检 索 到 的 语句 是 JMP， 那 么 ， 按 该 JMP 语句 的 目的 标号 继续 进行 优化 。 


7.9 元 余 代码 删除 


7.9.1 宛 余 代码 删除 基础 


事实 上 ， 见 余 代码 是 一 个 很 宽泛 的 概念 ， 它 可 以 泛 指 程序 中 一 切 无 用 代码 。 这 里 ， 只 讨 
论 两 种 较 常见 的 形式 ， 即 死 代 码 和 不 可 到 达 代 码 。 在 编译 技术 中 ， 死 代码 (dead code) 与 不 
可 到 达 代 码 (unreacheable code) 是 完全 不 同 的 概念 。 死 代码 就 是 指 那 些 确实 对 计算 结果 不 
起 作用 的 代码 。 而 不 可 到 达 代 码 就 是 指 那 些 无 论 输 入 数据 是 什么 都 不 可 能 被 执行 的 代码 。 这 
里 ， 举 两 个 C 语言 的 实例 ， 以 便 读 者 更 直观 地 理解 这 两 个 概念 。 见 表 7-12。 


表 7-12 死 代 码 、 不 可 到 达 代 码 的 实例 


(a) 死 代码 实例 (b) 不 可 到 达 代 码 实 例 
#include "stdio.h" #include "stdio.h" 
main() main() 
{ { 
int ij; int i=1;j; 
scanf("%d",&i); goto Ll; 
j=2+ti; i=2; // 不 可 到 达 代 码 
这 4; // 死 代码 Ll: j=4+ti; 
printf("%d",j); printf("%d",j); 
} } 
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从 程序 流程 来 说 ，(a) 列 中 的 “i=4” 是 可 以 被 执行 到 的 ， 不 过 ， 是 否 执 行 该 语句 对 运行 


结果 是 没有 任何 影响 的 。 而 (b) 列 中 


影响 运行 结果 是 没有 意义 的 。 


对 不 可 到 达 代码 的 概念 就 完全 淡化 了 ， 这 检 


过 ， 由 于 各 种 元 余 代码 的 删除 算法 往生 


可 到 达 代 码 删除 的 相关 问题 。 
1. 死 代码 删除 


如 果 编 译 器 有 比较 完善 的 数据 流 分 析 机 人 


在 许多 编译 器 经 典 著 作 中 ， 关 于 这 两 个 概念 有 非常 明 胡 
译 原理 书籍 往往 将 这 两 个 概念 混为一谈 ， 最 常见 的 观点 认为 死 代 码 就 泛 指 一 切 见 余 代 码 ， 而 
E 解 是 值得 商检 的。 实际 上 ， 读 者 并 不 需要 关 
注 这 两 个 概念 本 身 ， 它 们 只 不 过 是 两 个 名 词 而 已 。 而 设计 者 关注 的 是 如 何 删除 元 余 代码 。 不 
因此 ， 针 对 不 同 的 实际 问题 设计 相应 的 算 
法 ， 这 才 是 笔者 强调 区 分 死 代码 与 不 可 到 达 代 码 的 意义 所 在 。 下 面 ， 就 分 别 讨 论 死 代码 及 不 


方法 就 是 根据 定 值 IR 的 du 链 信 息 判 断 
不 能 到 达 任 何 引 用 点 ， 即 可 作为 死 代 码 删 
值得 注意 的 是 ， 编 译 器 必须 保 订 
位 、 触 发 中 断 等 。 如 果 死 代码 的 附带 动作 
在 任何 引用 关系 ， 该 死 代 码 也 是 不 能 被 删 
这 里 ， 只 讨论 基于 全 路 径 的 死 代码 删除 问题 。 


的 “2 ”是 不 可 能 被 执行 的 ， 当 然 ， 讨 论 该 语句 是 否 会 


外 的 阐述 。 可 惜 的 是 许多 国内 的 编 


出 ， 死 代码 分 析 就 将 变 得 比较 容易 了 。 最 简单 的 
是 否 为 死 代 码 。 如 果 du 链 为 空 ， 则 表示 本 次 定 值 


执行 任何 附带 动作 ， 例 如 ， 设 置 标志 
响 到 其 他 活跃 代码 ， 那 么 ， 即 便 两 者 之 间 不 存 


有 实 上 ， 死 代码 删除 并 不 一 定 是 基于 全 路 


径 讨 论 的 。 在 现代 优化 技术 中 ， 基 于 部 分 路 径 的 死 代码 删除 是 一 个 比较 热门 的 研究 领域 ， 即 


某 一 定 值 下 在 部 分 路 径 上 是 死 代 码 ， 而 在 其 
讨论 死 代码 的 分 析 与 删除 是 比较 复杂 的 ， 将 涉及 许多 代码 变换 方面 的 工作 。 早 在 1994 年 ， 
Knoop、Riithing、Steffen 就 提出 了 部 分 路 径 死 代码 删除 的 


他 的 路 径 上 可 能 不 是 死 代码 。 在 这 种 情况 1 


了 


内 


思想 。 近 年 来 ， 还 有 一 些 部 分 路 径 


死 代 码 删除 算法 是 基于 区 域 分 析 实 现 的 。 与 全 路 径 的 死 代码 删除 相 比 ， 部 分 路 径 的 死 代码 删 
除 的 适应 能 力 更 强 ， 当 然 ， 优 化 效果 也 更 好 。 有 兴趣 的 读者 可 以 参阅 相关 论文 及 学 术 资 料 。 


2. 不 可 到 达 代码 删除 


分 析 不 可 到 达 代 码 的 基础 思想 3 
本 块 开始 ， 沿 向 下 流 的 边 遍 历 整个 流 图 
块 即 为 可 到 达 的 ， 而 其 余 的 基本 块 由 
仔细 考虑 一 个 问题 : 是 否 可 以 依据 基本 块 的 InSet 集合 来 判定 不 可 
到 达 代 码 呢 ?那样 ， 算 法 实现 就 会 更 简单 。 读 者 可 外 


不 复杂 ， 就 是 从 流 图 的 入 口 基 
j 问 到 的 基本 a2; 


此 ， 请 读者 if (a<0) then 


{ 
Ll: 


认为 通过 判断 本 


InSet 集合 是 否 为 空 来 确定 该 基本 块 是 否 可 到 达 似 乎 也 是 可 行 的 。 实 goto Ll; 
际 上 ， 也 不 能 认为 这 种 观点 是 错误 的 ， 只 是 不 全 面 而 已 。 因 为 有 些 ” } 

不 可 到 达 代码 是 无 法 通过 InSet 集合 判定 的 。 例 如 ， 如 图 7-9 所 parl; 

示 ，if 真 分 支 内 的 语句 明显 是 不 可 到 达 代码 。 但 是 ， 在 整个 流 图 。 图 7-9 不 可 到 达 代 码 


7.9.2” 死 代码 删除 的 实现 
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中 ， 除 了 入 口 基本 块 以 外 ， 其 他 基本 块 的 InSet 都 是 不 为 空 的 。 因 
此 ， 仅 依据 InSet 集合 判定 不 可 到 达 代码 是 不 彻底 的 。 


在 Neo Pascal 中 ， 判 定 一 条 赋值 下 是 


否 为 死 代 码 的 标准 就 是 其 du 链 是 否 为 空 。 这 个 判 
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定 标准 是 相对 简单 的 ， 因 此 ， 算 法 实现 也 不 复杂 。 不 过 ， 这 种 简单 的 实现 方法 并 不 完美 ， 主 
要 是 由 于 它 的 效率 相对 较 低 ， 整 个 优化 过 程 可 能 需要 多 次 迭代 才能 完成 。 下 面 ， 就 来 看 看 相 
关 源 代码 的 实现 细节 。 


| 


程序 7-18 CodeElimination.cpp 
1 void CDeadCodeElimination::DeadCodeElimination(int iProcIndex) 


2 
马 bool bChange=true; 
4 while (bChange) 
5 { 
6 bChange=false; 
了 for (int 1=0;i<SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes.size();it+) 
8 { 
9 IRCode* TmpIR=&SymbolTbl.ProcInfoTbl.at(iProcIndex).m Codes[j]; 
10 Opti_Tbl* TmpOpti; 
11 if (TmpIR->m eOpType<0) 
吗 TmpOpti=SearchOptiTbl(OpType::TypeCast); 
13 else if (TmpIR->m eOpType>>4>=21) 
14 TmpOpti=SearchOptiTbl(TmpIR->m eOpType); 
15 else if (TmpIR->m eOpType>>4<21) 
16 TmpOpti=SearchOptiTbl((OpType)(TmpIR->m eOpType>>4<<4)); 
17 if (TmpOptil=NULL && TmpOpti->eDeadCode!=Opti_Tbl::None) 
18 { 
19 这 ImpIR->m Rsltm iType==OpInfo::VAR && ITmpIR->m Rsltm bRef && 
20 SymbolTbl.VarInfoTbl[ TmpIR->m Rsltm iLinklm eRank==VarInfo::VAR && 
2 TmpIR->m Rslt.m duChain.size()==0) 


CD 
MD 
一 一 


23 bChange=true; 

24 bOptiChanged=true; 

25 TmpIR->m bEnabled=false; 
26 } 

2 } 

28 } 

29 if (bChange) 

30 DeleteCode(iProcIndex); 

31 } 

32 } 


第 3 行 : 初始 化 优化 结束 标志 。 

第 6 行 : 重 置 优化 结束 标志 。 

第 7~27 行 : 遍历 IR 列表。 

第 9 行 : 获取 当前 I 人 R。 

第 11 一 16 行 : 获取 处 理 方案 。 

第 19 一 21 行 : 判断 当前 IR 的 du 链 是 否 为 空 ， 为 空 则 表示 当前 人 是 死 代 码 。 当 然 ， 这 
里 并 不 考虑 结果 操作 数 间接 寻 址 访问 的 情况 。 
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第 23 行 : 设置 bChange 标志 。 

第 24 行 : 设置 bOptiChanged 标志 。 

第 25 行 : 将 当前 下 的 m_bEnabled 设 为 false， 以 便 后 续 模 块 进行 统一 删除 。。 
第 30 行 : 根据 IR 的 m_bEnabled 标志 ， 将 宛 余 IR 实际 删除 。 


7.9.3 不 可 到 达 代 码 删除 的 实现 


前 面 已 经 讲述 了 不 可 到 达 代 码 分 析 是 基于 流 图 遍历 实现 的 。 通 常 ， 不 可 到 达 代 码 都 是 以 
基本 块 为 单位 分 析 的 ， 也 就 是 说 ， 如 果 某 一 行 民 是 不 可 到 达 代 码 ， 那 么 ， 其 所 属 的 基本 块 
必定 也 是 不 可 到 达 的 。 因 此 ， 从 算法 实现 来 说 ， 可 能 更 多 关注 的 是 不 可 到 达 基 本 块 。 分 析 不 
可 到 达 基 本 块 大致 有 如 下 几 步 ; 

1) 从 流 图 入 口 基本 块 开始 ， 沿 向 下 流 的 边 《 即 结 点 的 出 度 ) 遍历 整个 流 图 。 

2) 遍历 过 程 中 ， 记 录 所 有 访问 过 的 基本 块 〈 结 点 )， 将 其 暂 存 于 一 个 集合 中 ， 即 Neo 
Pascal 中 的 ReachableBlock 集合 。 

3) 最 后 ， 遍 历 所 有 基本 块 ， 如 果 基 本 块 属于 暂 存 集合 ， 则 表示 该 基本 块 是 可 到 达 的 。 
反之 ， 则 表示 该 基本 块 是 不 可 到 达 的 。 

显然 ， 遍 历 流 图 是 分 析 算 法 的 核心 。 流 图 是 标准 的 图 结构 ， 因 此 ， 数 据 结 构 中 关于 图 遍 
历 的 算法 都 是 适用 的 。 注 意 ， 编 译 器 并 不 关注 到 底 采 用 什么 方式 实现 遍历 ， 因 为 遍历 顺序 对 
分 析 结 果 不 会 有 任何 影响 。 更 多 关注 的 是 遍历 算法 的 实现 代价 及 效率 。 在 分 析 流 图 遍历 算法 
之 前 ， 先 引入 两 个 全 局 数据 结构 ， 声 明 形 式 如 下 ; 


【声明 7-12】 
set<int> ReachableBlock:; // 可 到 达 基 本 块 的 集合 
set<int> VisitedBlock; // 已 访问 基本 块 的 集合 


ReachableBlock 集合 描述 的 是 从 流 图 入 口 出 发 可 到 达 的 所 有 基本 块 〈 序 号 )。 也 就 是 
说 ， 不 存在 于 ReachableBlock 集合 中 的 基本 块 就 是 不 可 到 达 的 基本 块 。 而 优化 算法 就 是 依 此 
合 实现 元 余 删 除 的 。 
VisitedBlock 集合 的 主要 作用 是 标志 已 访问 过 的 基本 块 ， 避 免 因 流 图 中 的 环 路 而 导致 遍 
历 算 法 死 循 环 。 
下 面 ， 就 来 看 看 流 图 遍历 算法 的 实现 细节 。 


程序 7-19 CodeElimination.cpp 
1 void ReachPath(vector<CBasicBlock>* pBbs,int iPos) 


2 { 
3 if (VisitedBlock.count(iPos)!=0) 
4 return; 
四 else 
6 VisitedBlock.insert(iPos); 
了 vector<int>::iterator 1t=pBbs->at(iPos).DownFlow.begin(); 
8 for(;it!=pBbs->atGiPos).DownFlow.end();it++) 
9 { 
10 ReachableBlock.insert(*it); 
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11 ReachPath(pBbs,*it); 
12 } 
13 } 


第 3 行 : 判断 当前 基本 块 〈 即 iPos 所 标识 的 基本 块 ) 是 否 已 经 被 访问 过 了 。 

第 6 行 : 将 当前 基本 块 序号 加 入 VisitedBlock 集合 

第 7 一 12 行 : 依次 递归 调用 ReachPath 函数 ， 深 度 遍 历 当 前 基本 块 的 各 向 下 流 边 的 目的 
基本 块 。 

图 遍历 算法 是 相对 比较 简单 的 ， 不 再 歼 述 。 下 面 继续 讨论 不 可 到 达 代 码 删除 的 


程序 7-20 CodeElimination.cpp 


1 void CDeadCodeElimination::DeadBlockElimination(int iProcIndex) 
2 
3 vector<CBasicBlock>* pBbs=&BasicBlock[iProcIndex]; 
4 ReachableBlock.clear(); 
5 VisitedBlock.clear(); 
6 ReachPath(pBbs,0); 
if (ReachableBlock.size()!=pBbs->size()) 
8 { 
9 for (int 1=1;i<pBbs->size();i++) 
10 { 
11 if (ReachableBlock.count(i)==0) 
12 { 
13 for(int j=pBbs->at(i).iStart;j<=pBbs->at(i).iEnd;j++) 
14 SymbolTbl.ProcInfoTbl[iProcIndex].m_ Codes[j].m bEnabled=false; 
15 bOptiChanged=true; 
16 } 
17 } 
18 DeleteCode(iProcIndex); 
19 } 
20 
21 } 


第 3 行 : 获取 当前 过 程 的 基本 块 信息 。 

第 4 行 : 清空 ReachableBlock 集合 。 

第 5 行 : 清空 VisitedBlock 集合 。 

第 6 行 : 遍历 流 图 ， 计 算 可 到 达 基 本 块 集合 。 

第 7 行 : 判断 是 否 存在 不 可 到 达 的 基本 块 。 

第 9~17 行 : 在 遍历 流 图 基本 块 集合 的 过 程 中 ， 将 不 可 到 达 基 本 块 的 所 有 信 的 
m bEnabled 属性 置 为 false， 即 表示 该 下 是 元 余 的 。 

第 18 行 : 调用 DeleteCode 函数 删除 所 有 元 余 了 及。 
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7.10 深入 学 习 
在 过 去 的 数 十 年 中 ， 优 化 技术 绝对 是 编译 器 设计 领域 中 最 炙手可热 的 话题 。 关 于 优化 技 
术 的 经 典 论文 不 胜 枚 举 ， 有 兴趣 的 读者 可 以 参考 “ 鲸 书 ”各 章 的 参考 文献 ， 其 中 ， 详 尽 列 出 


了 各 种 优化 技术 发 展 历程 中 的 经 典 论 文 与 著作 


四 


本 书 不 再 更 述 。 首 先 ， 笔 者 推荐 几 个 优化 编 


Open64 是 一 个 开源 的 编译 器 后 端 。1999 年 ，SGI 发 布 了 一 个 工业 化 的 并 行 优化 编译 器 
Pro64(TM) 及 其 源 代 码 ， 后 来 经 过 全 世界 多 个 编译 器 研究 小 组 的 改进 ， 最 终 命 名 为 Open64。 


Open64 的 设计 结构 优秀 ， 分 析 优 化 全 面 ， 是 高 级 编译 优化 技术 的 型 


源 于 GCC 2.95， 


下 和 LU 


目前 ， 支 持 C、C++、Fortran 90/95 等 前 


net， 以 获得 更 多 的 资源 。 
Monica Lam 和 她 在 斯 坦 福 大 学 的 同事 一 起 开发 的 一 个 研究 型 编译 器 。SUIF 


三 | 
人 


SUIF 是 由 


并 不 是 一 个 产品 级 系统 ， 它 只 是 


于 优化 技术 与 并 行 编译 的 研究 。 目 前 ，SUIF 


E 想 平台 。Open64 的 前 端 主要 
。 读 者 可 以 访问 http:/www.open64. 


< 有 两 个 版 


本 ， 分 别 是 SUIF1 和 SUIF2，SUIF1 是 1994 年 诞生 的 ， 而 SUIF2 是 1999 开发 完成 的 。 
SUIF 是 一 个 将 C、Fortran 77 转换 为 MIPS 代码 的 编译 器 ， 当 然 ，SUIF2 已 经 实现 了 


Compaq、Alpha、x86 的 代码 生成 器 。 其 中 ， 还 包 提 


和 矩阵 和 线性 不 等 


http:/suif stanford.edu/， 以 获得 相关 信息 。 


LANCE 也 


， 这 主要 是 依赖 于 其 精巧 的 设计 结构 。LANCE 包括 C 编译 器 前 端 、 


是 一 个 优秀 的 开源 


lj 译 器 平台 。 它 为 开发 一 个 高 效 


5 了 数组 依赖 关系 分 析 库 、 循 环 转换 库 、 
式 运 算 库 、 并 行 代码 生成 器 和 运行 库 、 标 量 优 化 器 等 资源 。 读 者 可 以 访问 


的 C 编译 器 提供 了 一 个 系 


机 器 无 关 的 优化 


组 件 、IR 分 析 与 处 理 库 、 代 码 生成 器 等 组 件 。LANCE 的 主要 目标 就 是 租 入 式 C 乡 


有 译 兢 ， 


因 


此 ， 在 工程 领域 ，LANCE 获得 广泛 应 用 。 读 者 可 以 访问 http//www.lancecompiler.com/， 以 


获得 相关 资料 。 


LANCE 的 源 代码 是 可 以 通过 认可 申请 的 。 


最 后 ， 笔 者 再 来 推荐 几 本 优化 方面 的 经 典 著作 ， 供 读者 参考 学 习 。 
1、 现 代 体系 结构 的 优化 编译 器 Randy Allen, Ken Kennedy 机 械 工业 出 版 社 
说 明 : 本 书 是 以 并 行 机 为 基础 讨论 优化 技术 的 经 典 著作 。 该 书 涉及 的 理论 与 技术 较 新 ， 不 过 ， 并 不 太 适 合 初学 者 学 习 。 
2、The Compiler Design Handbook Y. N. Srikant, Priti Shankar CRC Press 
说 明 ， 本 书 是 以 优化 与 代码 生成 为 主 的 高 级 和 手册， 详细 阔 述 了 基于 不 同 目标 机 的 优化 与 代码 生成 技术 。 
3、 高 级 编译 器 设计 与 实现 Steven S. Muchnick 机 械 工业 出 版 社 
说 明 : 这 本 书 被 誉 为 “ 鲸 书 ”， 其 中 涉及 许多 编译 器 设计 的 高 级 话题 ， 当 然 ， 它 最 值得 关注 的 就 是 优化 技术 。 
4、 编 译 器 工程 Keith D. Cooper, Linda Torczon 机 械 工业 出 版 社 
说 明 : 这 是 一 本 以 介绍 编译 器 实践 工程 为 主 的 教材 ， 堪 称 继 “ 龙 书 ”之 后 的 另 一 本 经 典 著作 。 


WoL 实践 与 思考 


1. 请 尝试 基于 Neo Pascal 实现 简单 的 别名 分 析 机 各 


FE 一 入 


o 


2. 在 优化 技术 中 ， 如 果 试 图 得 到 更 精准 的 活跃 信息 ， 可 以 基于 IR 迭代 ， 而 不 是 基于 基 


本 块 迭 代 。 请 读 
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尝试 修改 Neo Pascal 的 活跃 分 析 算 法 。 


优化 技术 | 第 7 和 膏 


3. 从 IR 优化 的 角度 ， 请 读者 思考 HIR 与 LIR 的 优 劣 。 
4. 请 尝试 基于 Neo Pascal 实现 控制 流 分 析 算 法 。 
5. 请 尝试 基于 控制 流 分 析 结 果实 现 循环 优化 。 


] 7.12 大师 风采 一 一 Richard Stallman 


Richard Stallman: 美国 著名 的 自由 软件 倡议 者 和 计算 机 程序 员 ，GNU 项 目 创始 人 ， 
GCC、GDB、Emacs 等 著名 软件 的 开发 者 。1953 年 3 月 16 日 出 生 于 纽约 。 从 高 中 时 代 开 
始 ， 他 就 从 事 编程 工作 ， 如 开发 数据 分 析 程序 、APL 语言 的 编辑 器 、PL/I 的 预 处 理 器 等 。 

1971 年 ， 他 进入 哈佛 大 学 学 习 ， 并 成 为 麻 省 理工 学 院 人 工 智能 实验 室 的 程序 员 。 在 此 
期 间 ， 他 正式 加 入 黑客 阵营 ， 成 为 职业 黑客 。1974 年 ， 取 得 了 哈佛 大 学 学 士 学 位 后 ， 他 进入 
麻 省 理工 学 院 主 修 物 理 。 在 人 工 智 能 实验 室 期 间 ，Stallman 开发 了 TECO、Emacs、 基 于 
Lisp 机 的 操作 系统 ， 成 为 世界 上 最 著名 的 黑客 。 

1983 年 9 月 ，Stallman 发 起 了 GNU 项 目 ， 并 开始 研发 可 自由 使 用 的 类 UNIX 操作 系 
统 。 从 此 ，GNU 正式 登 上 了 历史 舞台 。 
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第 8 章 


There are only two kinds of programming languages: those people always bitch about and 


those nobody uses. 


8.1 存储 管理 概述 


8.1.1 


存储 区 域 


众所周知 ， 


效 地 组 织 与 分 配 存 储 区 域 
凭空 讨论 存储 管理 


是 密切 联系 的 ， 


在 程序 执行 过 程 中 ， 变 量 、 


日 


N_ /一 


运行 时 刻 的 存储 管理 


—— Bjarne Stroustrup 


常量 、 程 序 代 码 都 需要 占用 一 定 的 存储 区 域 ， 有 


延 


个 值得 讨论 的 话题 。 通 常 ， 存 储 管理 与 具体 目标 机 的 体系 结构 


并 不 太 丰 富 ， 更 多 是 任 


E 代 


管理 艺术 ， 而 9 


本 章 涉 及 的 存储 管理 是 


时 存储 管理 ”。 


译 器 本 身 的 存储 空间 更 有 意义 。 目 标 程 序 要 实现 一 次 运行 
依托 一 个 运行 时 环境 。 而 许多 与 目标 程序 
中 各 种 对 象 的 存储 分 配 及 访问 机 制 、 参 数 传递 、 操 作 系统 接口 等 。 
重要 的 概念 ， 这 可 能 
地 址 。 在 通用 机 平台 上 ， 编 译 器 生成 的 目 


首 


先 引 入 几 个 
(1) 逻辑 地 址 与 4 


科学 技术 。 


事实 上 ， 在 乡 


个 人 的 经 验 与 技巧 完成 的 。 因 


没有 太 大 意义 。 在 经 典 编译 技术 中 ， 关 于 存储 管理 的 理论 
此 ， 很 多 设计 者 更 愿意 将 其 视 为 一 种 


十 


2 


~ 


视 


以 讨论 目标 程序 运行 过 程 中 的 存储 空间 为 重点 ， 故 也 称 为 “运行 
译 器 设计 中 ， 深 入 研究 目标 程序 运行 时 的 存储 空间 远 比 讨论 编 


一 


勿 到 


FE 


除了 必要 的 可 执行 代码 ， 还 必须 
运行 相关 的 工作 都 必须 依赖 这 个 环境 ， 包 括 源 程序 


3 


有 助 于 读者 学 习 本 章 内 容 。 
标 程序 通常 不 是 独 享 整个 


系统 的 存储 资源 的 ， 


享有 的 存储 空间 是 | 


操作 系统 依据 特定 的 算法 分 配 的 。 对 于 物理 存储 


资源 调配 情况 ， 编 译 器 是 完全 无 能 为 力 的 。 那 么 ， 目 标 程 序 如 何 实现 对 存储 空间 的 访问 呢 ? 
事实 上 ， 这 个 过 程 是 由 编译 器 与 操作 系统 甚至 目标 机 协作 完成 的 。 下 面 ， 笔 者 举 一 个 汇编 程 
序 存储 分 配 的 例子 ， 如 图 8-1 所 示 。 

从 ASM 文件 到 实际 运行 的 过 程 可 以 分 为 以 下 两 个 阶段 : 

第 一 ， 汇 编 、 链 接 阶 段 。ASM 文件 中 并 没有 明确 指出 A、B 符号 的 地 址 ， 只 是 说 明了 
A、B 符号 所 需 的 存储 空间 。 经 过 汇编 、 链 接 之 后 ， 形 成 了 可 执行 文件 。 一 个 可 执行 文件 通 
常 是 以 段 的 形式 组 织 的 ， 其 中 一 部 分 用 于 存储 数据 〈 如 变量 、 常 量 等 )， 而 另 一 部 分 用 于 存 


储 可 执行 代码 。 在 假设 各 段 起 始 地 址 为 0 的 情况 下 ， 汇 编 器 会 为 各 符号 计算 逻辑 地 址 ， 即 相 


、 链 接 是 两 个 不 同 的 阶段 ， 它 们 的 工作 职责 也 是 完全 不 


对 于 段 首 地 址 的 偏 移 。 实 际 上 ， 汇 编 
同 的 。 困 于 篇 幅 ， 本 书 不 再 深入 阐述 两 者 的 差异 。 当 然 ， 
逻辑 地 址 的 可 能 性 ， 在 这 种 情况 下 ， 汇 编 器 就 


Es 
局 \， 


只 是 逻辑 地 址 而 已 。 


并 不 排除 用 户 在 ASM 中 指定 符号 
按照 用 户 的 实际 需要 分 配 罗 和 辑 地 址 。 注 


| 
只 能 


ASM 文件 


可 执行 文件 


MOV EAX, [0000] 
ADD EAX, [0004] 
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图 8-1 汇编 程序 的 存储 分 配 示例 


第 二 ， 装 入 阶段 。 当 一 个 可 执行 文件 被 执行 时 ， 操 作 系统 会 按照 一 定 的 调度 顺序 将 可 执 


行文 件 中 的 段 读 入 物理 存储 空间 中 。 
与 分 配 的 。 当 某 一 数据 段 被 装 入 到 物理 存储 空间 之 后 
即 实际 分 配 得 到 的 存储 地 址 ， 并 修改 相应 的 引用 。 至 于 操作 系统 如 何 确定 3 


通常 ， 物 理 存储 


难 解 决 。 通 常 ， 引 
约定 的 格式 读 取 。 即 可 


j 点 的 信息 是 由 汇编 器 产生 的 ， 并 


获得 各 引用 点 的 信息 。 
关于 重 定位 更 详细 的 内 容 


再 袭 述 。 
(2) 逻辑 地 址 空间 


的 组 乡 


空间 是 


写 入 可 


k 享 的 ， 完 全 是 |! 


操作 系统 管理 


， 操 作 系统 会 为 各 符号 


只 形式。 用 户 程序 的 逻辑 地 址 空 


间 的 管理 与 组 织 是 由 编 


的 。 这 里 ， 笔 者 介绍 一 种 最 普遍 的 模型 ， 如 图 8-2 所 示 。 
常 ， 编 译 器 会 将 逻辑 地 址 空间 划分 为 五 个 
静态 区 、 堆 区 、 栈 区 、 空 闲 


译 器 、 操 作 系 统 、 目 标 机 共 


区 ， 并 将 用 户 程 序 中 的 


区 域 ， 即 代码 区 、 


~ 


司 完成 
通 


种 程序 


数据 分 类 存储 。 


代码 区 主要 


于 存储 程序 代码 。 程 序 代码 在 程序 


中 是 保证 不 变 的 ， 对 于 


I 有 可 写 ROM 的 目标 机 结构 来 说 ， 代 


但 区 一 般 是 存放 在 ROM 
静态 区 主要 用 了 


中 。 这 样 既 保 证 了 代码 安全 ， 
描述 用 户 程序 的 静态 数据 ， 包 括 


加 


运行 过 程 


执行 文件 


计算 物理 地 址 ， 
点 的 问题 
PF。 操作 系统 只 需 按照 
在 操作 系统 中 ， 这 个 过 程 被 称 为 “ 重 定位 ”。 
属于 操作 系统 讨论 的 范畴 ， 这 里 就 不 


不 


8-2 ”逻辑 地 址 空间 模型 


.所 


也 节省 了 有 限 的 RAM 空间 。 


允许 用 户 程序 通过 地 址 直接 进行 寻 址 。 


栈 区 、 扒 区 主要 


j 于 解决 程序 运行 过 程 9 


静态 局 部 变量 都 是 有 
部 变量 的 存 人 


定 生存 


全 局 变量 、 月 


FP 动态 存储 分 配 的 问题 。 通 常 
周期 的 ， 当 茶 一 函数 执行 完毕 后 ， 隶 属于 该 函数 的 非 静 态 局 
空间 就 会 被 释放 。 在 程序 设计 语言 中 ， 这 种 动态 分 配 、 回 
见 ， 例 如 指针 目标 空间 的 分 配 、 回 收 等 。 在 静态 区 


、 
态 变量 等 9 


,| 


j 户 程序 的 非 


收 的 例子 并 不 少 


PF， 实现 空间 的 动态 分 配 、 回 收 有 相当 
的 难度 。 然 而 ， 在 栈 式 结构 或 堆 式 结构 中 实现 这 一 功能 是 比较 容易 的 ， 


因此 ， 设 计 者 更 愿意 
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B ER i 
罗 、 编译 器 设计 之 路 
[ 


选择 栈 、 堆 结构 ， 而 非 静态 结构 。 那 么 ， 动 态 存储 分 配 是 否 必须 基于 栈 或 堆 结构 实现 呢 ? 
严格 来 说 ， 的 确 如 此 。 不 过 ， 栈 、 堆 结构 并 不 是 所 有 目标 机 都 支持 的 ， 有 些 目标 机 可 能 只 
支持 代码 区 、 静 态 区 。 那 么 ， 编 译 器 就 不 得 不 在 静态 区 中 模拟 某 些 动态 分 配 、 回 收 的 过 
程 ， 以 满足 相应 的 需求 。 即 便 如 此 ， 这 种 分 配 策 略 的 本 质 仍 然 是 静态 的 ， 是 在 编译 过 程 中 
由 编译 器 完成 的 。 


8.1.2 存储 布局 


在 存储 分 配 之 前 ， 编 译 器 还 必须 完成 一 项 重要 的 工作 ， 就 是 计算 每 个 数据 对 象 所 需 占用 
的 存储 空间 大 小 。 通 常 ， 数 据 对 象 的 存储 空间 大 小 依赖 于 其 数据 类 型 。 对 于 简单 类 型 来 说 
计算 空间 大 小 是 非常 容易 的 。 不 过 ， 对 于 复杂 类 型 来 说 ， 就 需要 一 定 的 技巧 。 数 据 对 象 的 存 
储 布局 受 目标 机 寻 址 约束 的 影响 很 大 ， 合 理 的 存储 布局 对 提高 程序 的 执行 效率 是 非常 有 效 
的 。 这 里 ， 介 绍 一 种 比较 常见 的 方案 一 一 整 字 对 齐 。 

笔者 先 来 介绍 一 下 整 字 对 齐 的 背景 。 所谓“ 字 长 ”， 简 而 言 之 ， 就 是 CPU 一 次 读 、 写 数 
据 的 最 大 长 度 。 例 如 ，32 位 机 指 的 就 是 一 次 读 、 写 数据 的 最 大 长 度 为 32 位 (4 字 节 )。 在 现 
代 计 算 机 体系 结构 中 ， 为 了 便于 设计 ，CPU 通常 是 按 整 字 访 问 数据 的 ， 即 地 址 必须 能 整除 机 
器 字 长 。 如 果 数 据 不 按 规定 存储 ，CPU 就 不 得 不 耗费 多 个 周期 进行 读 、 写 数据 ， 并 按 实际 情 
况 进行 拼接 ， 这 样 会 大 大 降低 程序 的 执行 效率 。 以 32 位 机 为 例 ， 如 果 用 户 将 4 字 节 数据 存 
储 在 0006h 为 首 地 址 的 单元 中 ， 那 么 ，CPU 就 必须 花费 两 个 周期 分 别 寻 址 0004h (获取 字 的 
高 两 个 字 节 ， 即 0006hn、0007h 单元 的 字 节 数据 ， 侈 弃 低 两 个 字 节 数据 )、0008h〔 获 取 字 的 
低 两 个 字 节 ， 即 0008h、0009h 单元 中 的 字 节 数据 ， 售 弃 高 两 个 字 节 数据 )， 然 后 将 相应 的 数 
据 拼合 成 一 个 完整 的 4 字 节 数据 。 

因此 ， 避 免 这 种 情形 的 发 生 是 非常 有 必要 的 。 如 果 编 译 器 仅仅 依照 声明 的 次 序 及 数据 对 
象 的 实际 大 小 来 安排 存储 布局 ， 那 么 ， 发 生 这 类 问题 的 概率 是 非常 大 的 。 如 图 8-3 所 示 。 


源 程序 代码 逻辑 地 址 空间 分 配 源 程序 代码 逻辑 地 址 空间 分 配 


A:RECORD 
Al:integer; A:RECORD 
A2:char; Al:integer; 
A3:char, A2:char: 
Ad:single; A3:char; 
ND; 


Ad:single; 上 
END; 


未 经 过 对 齐 处 理 的 存储 分 配 示意 图 经 过 对 齐 处 理 的 存储 分 配 示意 图 
8-3 ”存储 布局 的 比较 


在 图 8-3 的 左 图 中 ， 不 难 发 现 A.A4 这 个 4 字 节 数据 的 起 始 地 址 是 不 符合 整 字 对 齐 要 求 
的 。 最 简单 的 解决 方法 就 是 适当 地 留 白 ,实践 证 明 ， 以 少量 的 存储 区 域 来 换 得 效率 的 提高 是 
完全 值得 的 。 不 过 ， 实 际 情况 却 并 非 如 此 简单 。 例 如 ， 声 明 8-1 如 下 : 
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【声明 8-1】 
A:RECORD 


END: 


根据 先前 
有 效 的 数据 空 
不 能 接受 的 。 
在 
后 原则 ， 
样 ， 


价 较 小 ， 


间 仅 为 10B， 而 留 白 的 空 i 


Al:char; 
A2:integer; 
A3:char; 
A4:integer; 


的 解决 方法 ， 编 译 器 必须 为 Al、 
司 却 


因此 ， 这 个 存储 布 
现代 编译 器 设计 中 ， 人 们 提出 了 一 种 更 有 效 的 存储 布局 方案 ， 就 是 打破 声明 次 序 的 先 
际 大 小 顺序 ， 由 小 至 大 (或 由 
明 次 序 的 不 合理 导致 留 白 过 多 的 问题 。 


按照 数据 对 象 占用 空 
就 能 有 效 二 
但 对 节省 


运行 


A3 两 个 数据 对 象 之 后 分 别 
达到 了 6B， 这 恐怕 是 


局 方 案 是 值得 


交 梭 的 。 


了 时 刻 的 存储 管理 第 8 和 


留 白 3B 的 空间 。 


是 程序 员 与 


编译 器 设计 者 都 


1 的 实 


旧 


也 避免 因 用 户 声 
存储 空间 却 是 效果 显著 的 。 


人 下面， 再 来 看 看 更 一 般 化 的 存储 布 


分 配 的 基本 六 


的 。 也 就 是 说 ， 


全 局 变量 由 


译 器 以 数据 块 为 单位 
乡 响 。 在 修 
程 或 函数 为 单位 进行 

了 解 了 存储 分 配 
了 。 实 际 上 ， 编 译 器 只 需 ; 


产生 的 景 


编译 器 将 


| 是 独立 组 成 一 个 或 多 个 数据 块 ， 这 可 能 
进行 存储 分 配 。C、Pascal 等 都 是 妇 
化 的 前 提 下 ， 讨 论 变量 的 存储 分 配 是 不 合适 的 。 
有 E 先 不 作 解 释 ， 


存储 分 配 呢 ? 这 是 


局 问题 。 


位 是 什么 ? 实际 上 ， 几 乎 所 有 的 编译 器 都 是 以 过 程 或 函数 为 单 
个 过 程 或 函数 内 的 所 有 局 


已 目 
全 


根据 
0 此 。 


部 变量 收集 起 来 ， 
目标 机 体系 结构 而 定 的 。 然 后 ， 编 


当 读 者 阅读 完 本 


大 至 小 ) 


地 依次 分 配 。 这 


这 种 处 


理 方法 的 实现 代 


这 里 ， 读 者 应 该 了 解 一 个 概念 ， 


编译 器 存储 


组 成 


当然 ， 这 里 并 


了 么 ， 编 


刀 


位 来 分 配 存储 区 
一 个 数据 块 。 而 


不 考虑 优化 技术 
译 器 为 什么 以 过 


章 内 容 后 就 明 


了 。 


的 基本 单位 后 ， 
年 一 


字段 列表 ， 这 样 就 可 以 依据 记录 类 型 变量 的 存储 布局 
通常 ， 可 以 得 到 若干 以 过 程 、 
存储 分 配 的 对 象 。 为 了 便 


| 
人 碟 


前 面 ， 


构 ， 例 如 ， 规 定 记录 的 字段 列 
局 的 ， 否 则 ， 


存储 布 


主要 讨论 了 存 
局 都 涉及 对 数据 对 象 的 重 间 

(1) 重 排 的 安 
语言 各 种 数据 对 象 的 存储 布 


嵌 布 局 的 
[排序 。 因 


讨论 基于 整个 
个 过 程 或 函数 内 的 所 有 局 


函数 为 单位 的 逻辑 


j 户 程序 的 存储 布 


局 问题 


就 变 得 非常 容易 


部 变量 


辣 首 


都 看 作 是 欠 


| 
FAE 


原由 


数据 


虚拟 记录 类 型 的 


I 讨论 所 有 用 户 变量 的 存储 布 
块 以 及 若干 全 


局 变量 的 


1 


此 ， 有 两 个 要 点 


1 于 讨论 ， 本 书 假设 只 存在 一 个 全 局 变量 的 数 
一 些 基 本 问题 。 无 论 是 记录 字段 ，i 


日 


还 是 局 


是 值得 注 


FE 的 : 
局 \DJ: 


> 


全 


性 。 事 实 上 ， 重 排 的 安 


性 


更 多 是 


一 切 不 安全 性 都 应 该 由 


储 布局 ， 而 用 户 仅仅 是 4 


担 。 典 型 的 例 
(2) 重 提 


凭借 经 验 推断 ， 那 么 ， 


的 组 织 顺 序 即 为 声明 证 
编译 器 负责 。 
重 排 可 


贰 序 ， 羽 


然而 ， 如 果 语 言 
能 带 来 的 某 些 不 安全 性 


取决 于 高 级 语言 本 身 的 设计 规范 
局 是 否 公 开 。 如 果 语 言 向 用 户 完全 公开 数据 组 织 与 存储 布局 


局 了 。 
数据 块 ， 这 些 就 


块 。 


部 变量 的 存储 布 


证 


己 》 


性 
得 局 乡 


了 么 》 编译 器 是 


不 能 随意 更 改 


并 


没有 明确 


就 应 该 


E 的 方式 。 最 常见 的 重 排 


子 就 是 应 用 指针 的 自 增 方 


方式 就 是 


不 过 ， 到 底 是 
有 优 缺 点 ， 


至 此 ， 已 经 闻 


并 不 和 


以 逆 


式 来 遍历 函数 局 


以 占用 空 


x 间 大 小 排 


部 变量 或 记录 字段 。 


序 ， 这 几乎 


字 还 是 顺序 重 排 ， 不 同 编译 器 的 实现 是 存在 


定 差异 的 。 


一 概 而 论 。 


针对 不 同 的 声明 形式 ， 读 者 只 需 进 行 少量 实验 ， 
重 排 方式 的 优 缺 点 。 本 书 就 不 再 深入 讨论 了 
EF 细 讨 六 人 了 存储 布局 的 相关 话题 


了 解 了 离散 的 数据 对 象 是 如 何 被 组 


是 没 
事实 上 ， 
即 可 


了 


B ER i 
辐 、 ”编译 器 设计 之 路 
a 


据 块 的 ， 并 且 明 确 了 存储 分 配 的 基本 单位 是 数据 块 。 存 储 布局 的 设计 思想 更 多 是 源 于 实践 总 
结 ， 并 没有 太 多 的 理论 支持 。 随 着 高 级 语言 功能 的 丰富 ， 存 储 布局 的 问题 也 是 与 时 俱 进 的 ， 


故 到 真正 的 最 优 却 并 不 容易 。 
8.1.3 存储 分 配 基 础 


本 小 节 将 详细 分 析 基 于 数据 块 的 存储 分 配 ， 其 中 将 涉及 一 些 非 常 有 趣 的 话题 。 那 么 ， 解 


因此 ， 深 入 研究 这 一 话题 是 有 现实 意义 的 。 例 如 ， 托 管 机 制 、 索 引 器 等 都 对 传统 编译 器 的 存 
渚 布局 机 制 提出 了 挑战 。 不 过 ， 笔 者 想 再 次 强调 的 是 ， 存 储 布局 通常 只 是 讨论 合理 与 否 ， 要 


决 存储 分 配 问 题 的 关键 是 什么 ? 简单 来 说 ， 就 是 保证 用 户 程序 的 各 种 数据 对 象 都 可 以 被 正确 
可 ， 不 至 于 产生 冲突 。 当 然 ， 这 是 基于 语言 的 相关 规则 而 言 的 ， 也 就 是 说 ， 在 数据 
对 象 的 作用 域内 ， 必 须 保证 存 取 是 有 效 的 。 下 面 看 


地 存 取 访 


char a,b; 
void aa() 
{ 

char 


了 

void bb() 
了 

\ 

char 

于 

main() 

了 


char 


aa(); 


a, b; 


个 例子 ， 如 图 8-4 所 示 。 


bb$ 
a, b; bb 函数 数据 块 


z 


图 8-4 存储 分 配 示例 


根据 先前 的 分 析 ， 编 译 器 会 为 这 个 程序 分 配 四 个 数据 块 ， 即 全 局 数据 块 、aa 函数 数据 
块 、bb 函数 数据 块 、main 函数 数据 块 。 这 里 ， 为 了 便于 讨论 ， 在 局 部 变量 的 名 字 前 冠 以 函 


数 名 ， 全 局 变量 则 不 作 更 名 。 下 面 ， 训 
首先 看 一 个 最 容易 想到 的 解决 方案 ， 


来 看 看 这 个 程序 的 存储 分 配方 案 。 
在 不 考虑 空间 回收 的 情况 下 ， 将 各 数据 块 ( 共 8 字 


节 ) 依次 分 配 到 静态 区 即 可 。 当 然 ， 此 时 的 全 局 变量 、 局 部 变量 的 差异 仅仅 是 一 种 语义 范 


畴 ， 它 们 的 实际 生存 期 是 完全 一 样 的 。 


体现 变量 生存 期 的 差异 ， 因 此 ， 其 可 行 性 比较 差 。 
那么 ， 是 否 可 以 考虑 对 这 一 分 配方 案 进 行 合理 的 优化 呢 ? 由 于 局 部 变量 的 生存 期 仅 限 于 
函数 执行 期 间 ， 因 此 ， 某 些 函 数 数据 块 是 可 以 共享 同一 存储 区 的 。 不 过 ， 这 种 共享 是 有 前 提 


中 ，main、aa 之 间 是 存在 调用 关系 的 ， 所 以 不 能 
的 ， 故 它们 与 bb 是 可 以 共享 同一 数据 块 的 。 因 此 ， 为 上 例 分 配 6B 的 存储 空间 是 可 以 保证 各 
序 正确 性 的 。 至 于 分 析 函 数 的 调用 关系 对 于 编译 器 来 说 应 该 是 易如反掌 的 。 在 编译 技术 中 ， 
通常 ， 将 这 种 分 配方 式 称 为 “静态 存储 分 配 ”。 早 期 的 Fortran 编译 器 就 是 采用 这 种 分 配方 案 
的 ， 其 可 行 性 较 先前 要 好 一 些 。 当 然 ， 在 现代 编译 技术 中 ， 静 态 存储 分 配 的 实现 可 能 比 这 里 


这 种 方案 既 不 能 有 效 地 利用 存储 空间 ， 也 不 能 很 好 地 


的 ， 就 是 必须 保证 函数 之 间 不 可 以 存在 任何 调用 关系 ， 包 括 直接 调用 或 间接 调用 。 在 上 例 


所 讨论 的 方案 要 更 优 ， 并 不 满足 了 


k 享 。 而 它们 与 bb 之 间 是 不 存在 调用 关系 


F 仅 仅 分 析 函 数 的 调用 关系 ， 而 是 更 深入 地 分 析 函 数 的 控制 


流 ， 试 图 在 更 大 程度 上 实现 空间 的 共享 。 然 而 ， 这 种 分 析 算 法 的 实现 却 不 简单 ， 尤 其 是 当 语 
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言 支持 指针 时 ， 统 
存储 分 配 站 
不 支持 堆 

从 表 四 


—— 


上 来 


译 


译 器 可 和 
4 意义 不 是 很 大 ， 
生 结 构 的 目标 机 上 ， 芝 


器 无 法 预知 的 


已 年 

E 霄 要 
Se 
这 大 


典 的 Fortran 乡 


编译 
栈 式 存 


出 的 


堆 式 存 


因 


FI 立 | 


辣 首 


的 管理 


作 系统 会 提 


供 一 个 接 


于 日 


>» 


口 ， 实 现 空间 的 申请 与 释放 。 


在 实际 应 用 中 ， 关 于 栈 式 存 储 分 配 的 观点 比较 
很 少 有 语言 会 将 栈 的 管理 接口 开放 给 程序 员 


见 的 。 不 过 ， 关 于 


全 式 存 储 分 配 


比较 大 。 有 些 语言 将 申请 与 释放 地 
由 程序 员 控 制 ， 相 应 的 责任 也 由 


任 的 空间 。 编 


运行 时 刻 的 存 


付出 更 大 的 代价 。 在 i386 体系 结构 的 目标 机 上 ， 讨 论 吏 
为 这 种 方案 本 身 仍然 存在 一 定 的 不 足 之 处 。 不 过 ， 在 一 
态 存储 分 配 可 能 是 
， 静 态 存储 分 配方 案 似乎 解决 了 存储 分 配 的 基本 问题 ， 


惟一 的 可 选 方案 。 


分 配方 案 的 不 足 之 处 就 在 于 它 无 法 解决 函数 递归 调用 的 问题 。 这 是 
， 当 然 ， 编 译 器 也 就 不 可 能 以 静态 方式 分 配 存 储 空 间 。 


储 管理 | 第 8 这 


忆 


些 


事实 却 3 
为 递归 调 
实践 证 


非 如 此 。 
的 深度 
明 ， 即 使 


因 


译 器 同样 


E 成 


ij 译 器 同样 无 法 解决 这 一 问题 ， 因 此 ， 必 须 寻 求 更 合适 的 动态 分 配方 案 。 
技术 中 ， 提 出 了 两 种 习 
诸 分 配 ， 将 过 程 或 函数 的 
尺 价 较 小 ， 便 于 实现 。 
诸 分 配 ， 与 栈 式 存储 不 同 ， 昔 


请 与 释放 


J 态 分 配 策略 ， 栈 式 存储 分 配 、 堆 式 存储 分 配 。 
bP 数据 对 象 分 配 在 栈 空间 中 。 


FH 请 与 回收 存储 空间 付 


通常 离 不 开 操作 系统 的 协助 。 一 般 而 言 ， 操 


相应 的 语句 调用 这 个 接 


日 


的 ， 因 


致 ， 一 般 都 是 由 编译 器 管理 、 
此 ， 对 于 程序 员 来 说 ， 栈 结构 是 透明 不 可 
的 观点 就 不 太一 致 了 ， 不 同 的 语言 在 这 个 问题 - 


E 空 间 的 接口 显 式 地 其 


仅 开 放 申 请 接口 ，j 
担 ， 例 如 ， 


和 i 释放 空间 的 


琐事 就 由 垃圾 


器 


员 感 觉 不 至 


| 堆 的 存在 。 
充 的 。 下 面 详细 分 析 这 两 种 分 配 策 四 


8.2 栈 式 存储 分 配 


8.2.1 


这 是 
要 体现 在 两 个 方面 : 


(1) 可 访问 元 素 。 传 统 的 栈 可 访问 的 元 素 只 有 
操作 的 对 象 只 是 栈 顶 而 已 ， 如 只 


栈 式 存储 分 配 基 础 
所 讨论 的 栈 主要 指 的 是 控 


想 访问 栈 的 


思想 。 


各 的 基本 ， 


制 栈 。 实 际 上 ， 控 和 


维护 的 ， 


上 的 实现 差异 


露 给 程序 员 ， 


程序 员 承 担 ， 典 型 的 例子 就 是 C、Pascal。 然 而 ， 有 些 i 
收 机 制 来 完成 ， 以 减轻 程序 员 维护 朝 


切 基 于 堆 的 管理 完全 


五 
记号 


的 负 


Java、C# 等 。 当 然 ， 也 有 些 语言 通过 某 些 特殊 语法 机 制 隐藏 了 + 
这 两 种 分 配 策略 并 不 是 互 斥 的 ， 更 多 时 候 ， 它 们 是 相互 合作 、 互 为 补 


个 ， 也 就 是 栈 顶 。 无 论 入 栈 、 上 
他 非 栈 顶 元 素 是 不 可 能 实现 的 。 然 而 ， 控 人 


的 管理 ， 让 程序 


由 栈 与 传统 意义 上 的 栈 是 有 差异 的 ， 主 


H 栈 ， 其 
判 栈 


4 狼 刁 


不 但 需要 文 持 传统 的 入 、 出 栈 访问 方式 ， 还 必须 支持 通过 直接 、 间 接 


意 元 素 ， 否 则 将 无 法 满足 分 配 策略 的 需求 。 
户 在 声明 一 个 栈 时 ， 必 须 说 明 其 大 小 。 然 而 ， 编 译 器 却 不 需要 过 多 考 
出 栈 的 大 小 。 换 句 话 说， 如 果 一 个 程序 能 够 将 系统 栈 耗 尽 ， 那 么 ， 这 个 程序 的 逻辑 可 能 


(2) 栈 的 大 小 。 
虑 探 外 
是 值得 商检 的 ， 

在 编译 原理 
满足 这 


有 的 系统 栈 都 适合 作为 控 


书籍 
两 个 条 件 。 不 过 ， 笔 者 认为 讨论 以 上 话题 是 
则 栈 的 。 在 一 些 嵌入 式 系统 中 ， 有 些 栈 结构 可 


月 


PF， 一 般 很 少 讨 论 以 上 话题 ， 这 是 因为 常见 


址 方式 访问 栈 的 任 


AAA 


的 通 


具有 


定 现实 意义 


机 所 提供 的 系统 栈 都 
的 。 事 实 上 ， 并 不 是 所 
能 容量 比较 小 ， 有 些 
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性 
昌 ”编译 器 设 
Cs 


计 之 路 


栈 结构 则 不 支持 寻 址 访问 或 者 入 、 出 栈 访 问 ， 这 样 的 栈 都 不 适合 作为 控制 栈 。 


栈 式 存储 分 


》 配 的 基本 思想 就 是 每 当 进 入 一 个 过 程 时 ， 就 在 控制 栈 顶 为 该 过 程 分 配 所 需 的 


数据 空间 ， 当 一 个 过 程 工作 完毕 返回 时 ， 它 在 栈 顶 的 数据 空间 也 随即 释放 。 习 惯 上 ， 将 那 块 
与 过 程 有 关 的 数据 空间 称 为 活动 记录 (activation record)， 亦 称 为 帧 〈frame)， 缩 写 为 AR 。 
AR 的 空间 一 般 由 以 下 几 部 分 组 成 : 过 程 局 部 变量 的 空间 、 实 参 列 表 、 返 回 值 空 间 、 返 回 地 


水 


址 、 机 器 状态 等 。 在 一 次 过 程 调用 中 ， 控 制 栈 的 变化 是 一 个 非常 精巧 的 过 程 ， 要 求 编译 器 经 
过 非常 严谨 的 计算 ， 方 才 得 以 实现 。 

根据 所 实现 语言 的 不 同 ，AR 的 内 容 与 布局 也 是 不 尽 相 同 的 。 事 实 上 ， 包 括 很 多 书 在 内 ， 
关于 AR 的 观点 也 存在 一 定 的 差异 。 这 里 ， 笔 者 参考 了 “ 龙 书 ”关于 AR 的 描述 ， 并 结合 Neo 


Pascal 的 实现 ， 
(1) 实 参 。 


H 


介绍 AR 的 各 基本 组 成 部 分 。 如 图 8-5 所 示 。 
从 经 典 编译 技术 的 观点 来 说 ， 实 参 是 由 过 程 调用 


点 压 入 控制 栈 ， 供 过 程 内 部 读 取 使 用 的 。 不 过 ， 在 现代 编译 器 设 

计 中 ， 参 数 传 递 更 多 地 依赖 于 寄存 器 ， 而 不 是 通过 AR 传递 的 。 

即便 如 此 ， 编 译 器 仍然 需要 在 AR 中 预 留 适当 的 实 参 空间 ， 想 通 
过 寄存 器 传 参 解 决 任意 参数 列表 的 传递 问题 是 不 可 能 的 。Delphi i 

在 这 方面 的 处 理 是 比较 出 色 的 ， 第 一 、 二 个 参数 通过 ecx、edx 传 re 

递 ， 其 他 参数 依然 压 入 控制 栈 。 这 就 是 fastcall 的 调用 约定 ， 是 继 

stdcall、cdecl 之 后 男 一 种 经 典 的 调用 约定 。 图 8-5 ”AR 结构 示意 区 


(2) 返回 值 。 返 回 值 是 由 函数 执行 完毕 后 ， 返 回 给 调用 点 的 值 。 由 于 返回 值 的 类 型 不 
同 ， 返 回 值 的 空间 大 小 各 异 。 不 过 ， 一 个 函数 最 多 只 允许 存在 一 个 返回 值 ， 因 此 ， 借 助 于 寄 
存 器 传递 返回 值 相对 容易 得 多 。 在 现代 编译 器 设计 中 ， 通 过 eax 传递 返回 值 几乎 是 公认 的 。 


(3) 保存 的 机 器 状态 。 用 于 保存 当前 过 程 调用 之 前 的 机 器 状态 信息 ， 包 括 返 回 地 址 、 通 


用 寄存 器 的 值 等 。 其 中 ， 有 些 信 息 可 能 是 由 调用 点 或 被 调 过 程 保 存 的 ， 而 有 些 信息 则 可 能 是 


由 机 器 自动 保存 的 。 在 i386 体系 结构 中 ， 返 回 地 址 就 是 由 机 器 自动 压 栈 保存 的 。 当 过 程 


用 完毕 返回 时 ， 


调 


se 


必须 将 保存 的 机 器 状态 恢复 ， 以 便 调用 点 继续 执行 后 续 程序 。 


(4) 局 部 数据 与 临时 变量 。 这 两 部 分 都 是 与 过 程 的 相关 局 部 数据 对 象 ， 从 编译 器 设计 的 
角度 来 说 ， 在 存储 分 配 中 ， 并 不 需要 严格 区 分 局 部 数据 与 临时 变量 。 当 然 ， 如 何 存储 布局 ? 
如 何 删除 死 变 量 ? 这 些 问 题 还 是 值得 注意 的 。 

(5) 控制 链 。 指 向 调用 者 的 AR。 

(6) 访问 链 。 用 于 指向 其 他 AR 中 可 访问 的 非 局 部 数据 对 象 。 


由 于 Neo 
题 。 不 过 ， 它 介 


参考 相关 资料 。 


Pascal 和 C 都 不 支持 风 套 过 程 声 明 ， 所 以 ， 本 书 将 略 过 控制 链 与 访问 链 的 话 
] 对 于 实现 标准 Pascal、Alogl 60、ML 等 是 有 实际 意义 的 ， 有 兴趣 的 读者 可 以 
下 面 通过 一 个 实例 来 分 析 过 程 调用 的 详细 步骤 。 


例 8-1 过 程 调用 的 分 析 。 代 码 如 下 所 示 。 


char aa 
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(char pl,char p2) 
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main() 

{ 
char c,d; 
aa(c,d) 

} 


函数 调用 的 AR 变化 如 图 8-6 所 示 。 


临时 变量 .T4， 
mm | 
寄存 器 现场 EN 
返回 地 址 
实 参 
局 部 数据 局 部 数据 
临时 变量 让 人 临时 变量 
返回 和 返回 什 main 的 AR 
寄存 器 现场 寄存 器 现场 
返回 地 址 | | 返回 地 址 
控制 栈 控制 栈 
图 8-6 ”函数 调用 的 AR 变化 
a) main 调用 aa 前 的 栈 示 意 b) main 调用 aa 后 的 栈 示意 图 
图 8-6a 的 控制 栈 是 调用 aa 前 的 状态 ， 注 意 ， main 函数 也 有 一 个 AR。 当 然 ， 其 中 某 


些 项 允许 为 空 ， 编 译 器 不 必 分 碧 
除 。 在 本 例 中 ， 临 时 变量 是 笔者 
当然 ， 对 于 main 来 说 ， 这 个 动 
函数 的 大 臻 过程。 可 以 分 为 如 下 几 步 : 

1) 参数 传递 。 这 里 ， 假 设 使 用 
栈 。 实 际 上 ， 实 参与 形 参 是 共享 同一 片 存储 
实 参 的 存 取 ， 这 将 是 非常 方便 的 。 

2) 返回 地 址 压 栈 。 在 正式 执行 aa 函数 之 前 ， 必 须 将 返 


区 的 ，aa 函数 体 


stdcall 方式 传递 参数 。 编 译 器 会 将 实 参 自 右 


相应 的 空间 。 这 里 ， 为 了 便于 读者 理解 ， 故 未 将 空 表 项 删 
恨 设 存在 的 。main 函数 在 执行 前 同样 需要 保护 寄存 器 现场 。 
乍 看 起 来 可 能 意义 并 不 大 。 请 


里 解 调用 aa 


读者 结合 


图 8-6b， 


向 左 依次 压 
内 对 形 参 的 访问 就 直接 变 成 了 对 


回 地 址 压 栈 。 前 面 ， 笔 者 已 经 介 


绍 了 返回 地 址 压 栈 的 方式 很 多 ， 有 些 是 


j 户 程序 负责 的 ， 有 些 则 是 由 机 器 自动 完成 的 。 不 


LL 


数 调 


j 点 call 指令 所 在 地 址 压 栈 ， 而 


仅 如 此 ， 压 栈 的 地 址 也 可 能 存在 差异 ， 有 些 是 将 aa 函 


一 条 指令 所 在 的 地 址 压 栈 。 这 主要 依赖 于 目标 机 


更 多 的 是 将 aa 函数 调用 点 call 指令 之 后 的 
的 体系 结构 。 本 例假 设 返回 地 址 是 1000h。 


三 | 
自 


3) 转 入 aa 函数 。 进 入 aa 函数 的 程序 体 执行 。 注 意 ， 


在 转 入 aa 函数 执行 时 的 栈 顶 
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“返回 地 址 ”。 那么 ， 当 aa 函数 执行 完 后 ， 返 回 main 函数 前 ， 也 必须 保证 栈 顶 仍然 是 “ 返 


地 址 ”。 否则 ， 将 导致 异常 。 


4) aa 函数 的 调用 代码 序列 。 转 入 aa 函数 后 ， 率 先 执行 的 j 


不 是 aa 函数 的 实际 程序 ， 


加 | 


而 是 编译 器 在 aa 函数 体 前 插入 的 一 段 特定 代码 序列 。 这 上段 代码 序列 主要 用 于 生成 AR。 其 
中 ， 包 括 保护 寄存 器 现场 、 分 配 临时 数据 、 局 部 变量 等 存储 空间 。 待 AR 构造 完毕 ， 就 得 到 


了 一 个 完整 的 AR 布局 示意 ， 如 图 8-6b 控制 栈 所 示 。 


5) aa 函数 的 返回 代码 序列 。 当 aa 函数 完全 执行 完毕 ， 必 须 执行 一 段 由 编译 器 生成 撕 
在 返回 指令 之 前 的 代码 序列 。 这 段 代码 序列 主要 完成 空间 回收 ， 并 恢复 寄存 器 现场 。 当 然 ， 


入 


也 包括 返回 值 处 理 。 事 实 上 ， 所 谓 “ 空 间 回 收 ” 并 不 是 真正 的 数据 清空 ， 而 只 需 将 栈 项 调整 


到 “返回 地 址 ” 即 可 ， 以 保证 函数 能 正常 返回 。 


6) 返回 main 函数 。 当 执行 到 返回 指令 时 ， 从 栈 中 弹出 返回 地 址 ， 根 据 返回 地 址 返回 调 


用 点 。 原 则 上 ， 弹 出 返回 地 址 的 动作 应 该 由 压 栈 者 负责 。 也 就 是 说 ， 如 果 返 回 地 址 是 由 机 器 
自动 压 的 ， 那 么 ， 就 由 机 器 处 理 返 回 地 址 的 弹出 。 和 否则 ， 就 由 用 户 程序 负责 。 


7) 清理 现场 。 虽 然 程序 得 以 继续 正常 执行 ， 但 是 控制 栈 里 却 多 了 几 个 实 参数 据 ， 这 是 


不 能 接受 的 。 通 常 ， 需 要 将 栈 顶 恢复 到 传 参 之 前 的 状况 。 那 么 ， 


于 这 个 问题 存在 两 种 观点 ， 一 种 认为 由 调用 者 清理 ， 一 种 认为 由 


是 前 者 的 经 典 实例 ， 而 stdcall 方式 则 实现 了 后 者 。 从 理论 上 来 说 ， 更 规范 、 灵 活 的 清理 
是 前 者 ， 处 理 个 数 不 定 的 参数 列表 时 ， 它 显得 更 方便 。 被 调 函数 只 关心 如 何 引 用 参数 ， 不 需 
要 过 问 参数 的 数量 。 而 后 者 在 处 理 个 数 不 定 的 参数 列表 时 ， 不 得 不 将 参数 的 个 数 同时 
被 调 函数 ， 因 为 其 清理 工作 将 在 函数 返回 时 工作 。 当 然 ， 后 者 也 不 是 没有 但 


谁 来 完成 这 项 工作 呢 ? 关 
被 调用 者 清理 。cdecl 方式 


方式 


传递 给 
FE 何 优势 的 ， 在 处 


理 个 数 确定 的 参数 列表 时 ， 调 用 者 可 以 省 去 很 多 烦心 事 。WINAPI 的 标准 调用 方式 就 是 


stdcall。 


关于 被 调 者 清理 现场 的 方案 ， 还 有 一 个 问题 需要 了 解 ， 那 就 是 如 果 目 标 机 的 返回 指令 功 
能 比较 弱 时 ， 实 现 由 被 调用 者 清理 现场 将 是 比较 复杂 的 。 这 是 因为 无 论 是 调用 者 还 是 被 调用 


者 清理 现场 ， 都 必须 保证 清理 现场 是 在 返回 指令 执行 后 进行 的 。 


位 于 实 参 之 上 ， 一 旦 清理 了 现场 ， 返 回 地 址 就 将 丢失 。 为 了 解决 这 个 矛盾 ， 


由 很 简单 ， 因 为 返回 地 址 
现代 目标 机 体系 


结构 一 般 不 仅 支持 简单 的 RET 指令 ， 还 支持 RET X 指令 〈 即 返回 后 ， 同 时 退 X 字 节 的 
栈 )。 这 样 ， 由 被 调用 者 清理 现场 也 并 不 困难 。 不 过 ， 并 非 所 有 的 目标 机 都 支持 RET X 指 


令 。 如 果 基于 不 支持 这 类 指令 的 目标 机 ， 那 么 ， 就 必须 在 返回 指令 之 前 ， 将 “返回 
存 后 清理 现场 ， 清 理 完 后 再 将 “返回 地 址 ” 压 栈 ， 以 保证 正常 返回 调用 点 。 


地 址 ”和 暂 


实际 上 ， 无 论 是 普通 调用 ， 还 是 递归 调用 ， 都 可 以 借助 于 这 个 模型 实现 。 从 理论 上 来 
说 ， 只 要 栈 空间 允许 ， 任 意 多 级 府 套 调用 都 是 合法 的 。C、Pascal 等 语言 并 没有 规定 函数 调 


用 的 级 数 或 递归 的 层次 等 。 
8.2.2 i386 栈 式 存储 分 配 


前 面 已 经 讲述 了 关于 栈 式 存储 分 配 的 基本 思想 ， 本 小 节 将 基于 一 个 具体 的 目标 机 模型 深 


入 讨论 栈 式 存储 分 配 的 一 些 细节 实现 。 为 了 便于 读者 更 好 地 理 角 
统 栈 相关 的 话题 。 
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牛 ， 


在 i386 体系 结构 中 ， 系 统 栈 是 由 CPU 直接 管理 与 维护 的 ， 它 主要 涉及 两 个 寄存 器 : 


先 简单 介绍 一 下 i386 系 


ss、esp。 在 保护 模式 下 ，ss 寄存 器 存放 的 是 段 选择 器 ， 月 
实 模式 下 ，ss 寄存 器 存放 的 就 是 系统 栈 的 段 首 地 址 ， 通 * 


= 
号 下 
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日 户 模式 程序 不 应 对 其 进行 修改 。 在 


由 月 


器 存放 的 是 指向 栈 内 特定 位 置 的 一 个 32 位 偏 移 值 。 一 般 来 说 ， 


压 入 到 系统 栈 上 的 数据 。 在 实 模式 下 ， 由 于 栈 元 素 的 地 址 只 有 16 位 ， 因 


有 户 程 序 指定 的 。 而 esp 寄存 


esp 寄存 器 指向 的 就 是 最 后 


此 ， 只 需要 使 用 esp 


的 低 16 位 《〈 即 sp 寄存 器 ) 即 可 。 相 对 于 实 模式 而 言 ， 现 代 编译 器 更 多 关注 的 是 保护 模式 下 


的 相关 话题 ， 因 此 ， 本 书 将 重点 讨论 32 位 保护 模式 下 的 系统 栈 机 


主要 包括 两 类 : 压 栈 操作 、 出 栈 操作 。 


压 栈 操作 将 esp 指针 减 4， 并 将 值 复 和 


00001000 
O0000FFC 
O0000FF8 


出 栈 操作 将 esp 指向 位 置 的 值 复 


00001000 
00000FFC 
00000FF8 
00000FF4 
00000FFO 


针对 i386 的 系统 栈 ， 笔 者 作 如 下 三 点 简单 说 明 : 


压 栈 前 


00000008 -一 esp 


00001000 

00000FFC 
00000FF8 
00000FF4 
00000FF0 


出 到 esp 指向 的 位 置 ， 如 图 


压 栈 后 


判 。 关 于 系统 栈 的 操作 ， 


8-7 所 示 。 


图 8-7 i386 系统 栈 压 栈 示 意图 
判 出 来 ， 并 将 esp 指针 加 4， 如 图 8-8 所 示 。 
出 栈 前 压 栈 后 

00000008 00001000 
| ooooooF | -esp 00000FFC 
| 00000FF8 
有 00000FF4 
| _l 00000FF0 

图 8-8 i386 系统 栈 出 栈 示意 图 


(1) 系统 栈 区 域 的 初始 状态 。 
非 如 此 。 在 i386 体系 结构 中 ， 系 统 栈 区 域 的 初始 状态 是 随机 的 ， 其 实际 存储 的 值 是 完全 取 
决 于 存储 器 的 当前 状态 的 。 因 此 ， 为 了 避免 出 现 意外 错误 ,在 函数 初始 化 过 程 中 ， 有 些 编译 器 


意 ， 并 不 是 初始 化 整个 系统 栈 。 


(2) 系统 栈 的 扩展 方向 。 关 于 这 个 问题 ， 从 图 8-7 及 


里 论 上 说 ， 系 统 栈 区 域 的 初始 状态 为 空 。 不 过 ， 实 际 却 并 


j 的 栈 区 域 。 注 


图 8-8 中 ， 读 者 应 该 已 经 看 出 来 


了 。 的 确 ， 与 数据 结构 课程 中 描述 的 栈 结构 相 比 ，i386 系统 栈 的 扩展 方向 是 向 下 扩展 的 ， 即 


随 着 栈 内 元 素 的 增 力 


0，esp 指向 的 地 址 却 是 逐步 减 小 的 。 有 些 读者 可 


能 会 疑惑 向 下 扩展 系统 


栈 是 否 有 特殊 的 原因 。 事 实 上 ， 这 是 没有 任何 原因 的 ， 只 是 Intel 设计 者 的 个 人 喜好 而 已 。 


(3) 出 栈 元 素 3 


不 清除 。 与 传统 的 栈 结构 类 似 ，CPU 并 不 会 刻意 去 清除 那些 已 出 栈 的 元 


素 所 在 的 存储 区 域 。 当 有 新 的 元 素 需 要 入 栈 时 ，CPU 就 直接 歼 盖 原 有 数据 即 可 。 以 图 8-8 为 
例 ， 虽 然 00000FFC 单元 的 数据 已 经 出 栈 ， 但 CPU 只 对 esp 作 了 修改 ， 却 并 不 真正 清除 该 数 
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表 8-1 所 示 的 程序 是 非常 简单 的 ， 读 者 应 该 不 难 理解 其 


意 关 闭 了 优化 选项 (包括 汇编 级 的 帘 孔 优化 )， 


据 。 直 到 有 新 的 元 素 入 栈 时 ，CPU 就 将 其 写 入 00000FFC 单元 中 ， 此 时 ， 并 不 关注 是 否 存 在 
数据 ， 而 是 直接 无 条 件 履 盖 即 可 。 
下 面 ， 笔 者 通过 一 个 完整 实例 来 介绍 1386 栈 式 分 配 的 内 核 ， 以 便 读者 深入 理解 这 一 精 
巧 的 处 理 过 程 。 
例 8-2 ”i386 栈 分 配 的 实例 ， 见 表 8-1。 
表 8-1 输入 源 程序 与 相应 IR 序列 
输入 源 程序 IR 序列 
program aa(input,output); 函数 : AA 
var i:integer; 0 (PARA ,2,nu11,]) 
function 1 (PARA ,1Lnull.D 
add(i:integer;j:integer):integer; 2; (CALL ,ADD,null,null) 
begin 3 (RETV ,null,null, T1) 
result:=1+]j; 4 (ASSIGN 4 ，TlnulLD 
end; 
begin 函数 : ADD 
i:=add(1,2); 0: (ADD 4 ,1,J, TO) 
end . 1 : (ASSIGN 4 ,TO,null,RESULT) 


IR 序列 的 意义 。 这 里 ， 笔 者 特 


目的 就 是 为 J 


更 好 地 还 原 调用 过 程 的 全 貌 。 


下 面 ， 笔 者 就 详细 列 出 相应 的 汇编 程序 代码 ， 如 程序 8-1 所 示 。 


程序 8=1 
1 .686P 
之 .model flat,stdcall 
3 option casemap: none 
4 include PasLib.INC 
S .data 
6 ;ConstSymbolList: 
了 __Const0=1 
8 __ Const1=2 
9 ;VarSymbolList 
10 __cvt DWORD 1DUP(O) 
11 _ADDS$I=8 
12 _ADDS$f=12 
13 _ADDS$RESULT=-8 
14 _ADDS$ TO0=-4 
15 _AASI DWORD 1 DUP(O) 
16 _AAS$ Tl DWORD 1 DUP(0) 
17 .code 
18 ;function:AA 
19 ;process of start 
20 start: 
21 _AA proc 


;数据 段 


;常量 声明 列表 


;变量 声明 列表 


;变量 转换 使 


;add 函数 的 
;add 函数 的 
;add 函数 的 


Tr 
I 


的 临时 空间 
数 i 的 偏 移 
数 j 的 偏 移 
可 值 的 偏 移 


GN 


;add 函数 的 
;全 局 变量 i 
;全 局 临时 


;代码 段 


; 主 程序 段 


雪 


时 变量 T0 的 仿 


量 T1 


push ebp 
Imov ebp,esp 
Sub esp,0 
push ebx 
push esi 
push edi 
;(PARA ,2,nu1],J) 
push dword ptr[ _ Constl ] 
;(PARA ,1,null,1) 
push dword ptr[ _ ConstO ] 
;(CALL ,ADD,null,null) 
call ADD 
;(RETV ,null,null, T1) 


mov dword ptr[ AAS$ TI1 ],eax 


;(ASSIGN 4 , Tlnull,D 


mov eax,dword ptr[ AA$ TI1] 
mov dword ptr[_AASI ],eax 
;process of end 
pop edi 
pop esi 
pop ebx 
Imov esp,ebp 
pop ebp 
ret 0 
_AA endp 
;function:ADD 
;process of start 
_ADD proc 
push ebp 
mov ebp,esp 
sub esp,8 
push ebx 
push esi 
push edi 
;:(ADD 4 ,LJ, TO0) 


mov eax,dword ptr[ebp+ ADDYI ] 

add eax,dword ptr[ebp+ ADD9J ] 

mov dword ptr[febp+ ADDS$ TO0 ],eax 
;(ASSIGN 4 ,TO,null,RESULT) 

mov eax,dword ptr[ebp+ ADDS$ TO0] 

mov dword ptr[ebp+ ADDS$RESULT ],eax 


;process of end 
mov eax,[ebp+ ADD$RESULT ] 
pop edi 
pop esi 
pop ebx 
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;保护 ebp 

;将 esp 的 值 赋 给 ebp 
;申请 存储 空间 

;保护 ebx 

;保护 esi 

;保护 edi 


:将 常量 2 压 入 系统 栈 


;将 常量 1 压 入 系统 栈 


;恢复 edi 
;恢复 esi 
;恢复 ebx 
;恢复 esp 
;恢复 ebp 
;返回 


;add 函数 段 
2 ebp 
各 esp 的 值 赋 给 ebp 
1 请 存储 空间 
:保护 ebx 
;保护 esi 
;保护 edi 


;获取 add 函数 的 参数 i 


;将 add 函数 的 参数 i 与 参数 j 相 加 


;将 和 赋 给 临时 变量 T0 


;将 返回 值 置 入 eax 
;恢复 edi 
;恢复 esi 
;恢复 ebx 


编译 器 设计 之 路 


‘ne 


mov esp,ebp ;恢复 esp 
pop ebp ;恢复 ebp 
ret 8 ; 返 匠 
_ADD endp 

end start 


TH 


这 是 一 个 标准 的 宏 汇 编程 序 ， 使 用 MASM 6.15 汇编 、 链 接 得 到 可 执行 文件 。 笔 者 并 不 
打算 深入 讲述 汇编 语言 方面 的 话题 ， 有 兴趣 的 读者 可 以 参考 《Intel 汇编 语言 程序 设计 》 一 


书 。 这 里 ， 假 设 esp 的 初始 值 为 1000H。 下 面 ， 就 来 看 看 函数 调用 的 详细 过 程 ， 如 图 8-9 
所 示 。 
初始 状态 第 3 步 

00001000 一 esp 00001000 00001000 00001000 

00000FFC 00000FFC| 2 | 00000FFC| 2 | 00000FFC 

00000FF8 00000FF8 00000FF8 00000FF8 

00000FF4 00000FF4 00000FF4 00000FF4 

00000FF0 00000FF0 00000FF0 00000FF0 |E esp 
00000FFC 00000FEC 00000FEC 00000FEC 

00000FE8 00000FE8 00000FE8| | 00000FE8| | 
00000FE4 00000FE4 00000FE4 00000FE4 

00000FD0 00000FD0 00000FDO| 00000FD0 

00000FD0 00000FDC 00000FDC 00000FDC 

00000FD8 00000FD8 00000FD8 00000FD8 

00001000 00001000 00001000 00001000 一 esp 
00000FFC 00000FFC 00000FFC 00000FFC 

00000FF8 00000FF8 00000FF8 00000FF8 

00000FF4 00000FF4 00000FF4 |0 00000FF4 

00000FF0 00000FF0 00000FF0 00000FF0 

00000FEC 00000FEC 00000FEC 00000FEC 

00000FF8 00000FE8 | | 00000FE8| | 00000FE8 

00000FF4 00000FE4 |EBX 也 00000FE4 00000FE4 

00000FD0 00000FD0 00000FD0 


00000FDC 一 一 


00000F Ds| | 


00000FDC| | 00000FDC| 


00000FD8| | 00000FD8 00000FD8| | 


图 8-9 程序 8-1 的 栈 变 化 过 程 


(1) 参数 压 入 系统 栈 。 注 意 ， 为 了 便于 被 调 函数 访问 实 参 ， 参 数 压 栈 的 顺序 恰好 与 参数 


书写 顺序 相反 。 

(2) 调用 _ ADD 过 程 。 首 先 ，CPU 会 自动 将 调用 点 〈 即 call 指令 ) 之 后 首 条 指令 的 
地 址 压 入 系统 栈 。 这 里 ， 假 设 第 35 行 指令 的 地 址 为 00007FC0h。 然 后 ，CPU 转 入 _ADD 
过 程 执行 。 


(3) 保护 ebp。 由 于 ebp 将 在 程序 中 用 于 变 址 寻 址 ， 故 必须 将 ebp 压 入 系统 栈 。 然 后 ， 


将 esp 的 值 置 入 ebp 中 。 注 意 ， 由 于 esp 是 栈 顶 的 指针 ， 压 、 出 栈 将 时 刻 影 响 esp 的 值 ， 因 


此 ,不便 


i 于 后 续 局 部 变量 的 寻 址 处 理 。 


(4) 申请 存储 空间 。_ADD 过 程 有 两 个 4B 的 变量 ， 故 需要 分 配 8B 的 存储 空间 。 注 
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意 ， 由 于 系统 栈 是 向 下 扩展 的 ， 因 此 ，esp 的 值 减 8 即 表 示 向 下 预 留 8B 的 存储 空间 。 

(5) 保护 ebx、esi、edi 的 值 。 一 般 编译 器 都 考虑 将 这 三 个 寄存 器 保护 ， 以 便 后 续 处 理 。 

(6) 局 部 变量 〈 包 括 参 数 ) 只 需 以 “[ebp+ 该 变量 的 偏 移 ]” 形 式 引 用 即 可 。 

(7) 恢复 ebx、esi、edi 的 值 。 

(8) 恢复 esp 的 值 。 

(9) 恢复 ebp 的 值 。 

(10) 清理 参数 并 返回 。 在 i386 系统 中 ， 提 供 了 “ret X” 指 令 来 清理 参数 ， 这 是 一 种 非 
常 有 效 的 机 制 。 

在 图 8-9 中 ， 有 一 个 事实 是 显而易见 的 ， 那 就 是 函数 调用 前 后 的 系统 栈 是 平衡 的 ， 因 
此 ， 本 次 调用 可 以 视 为 是 安全 的 ， 读 者 千 万 不 可 忽视 这 一 要 点 。 在 应 用 系统 栈 时 ， 平 衡 可 能 
比 其 他 任何 因素 都 显得 重要 。 一 些 商用 编译 器 甚至 不 惜 通过 在 目标 程序 中 插入 检测 代码 ， 以 
保证 栈 的 平衡 。 除 了 栈 平衡 之 外 ， 编 译 器 需要 关心 的 男 一 个 问题 就 是 局 部 变量 、 参 数 等 数据 
对 象 的 寻 址 ， 这 是 被 调 函数 正常 运行 的 关键 所 在 。 仔 细 分 析 图 8-9， 读 者 不 难 发 现 以 下 两 个 
结论 : 

(1) 实 参 存储 区 就 是 以 ebp+4 为 基准 地 址 向 上 扩展 的 存储 区 域 。 


(2) 局 部 变量 存储 区 就 是 以 ebp-4 为 基准 地 址 向 下 扩展 的 存储 区 域 。 

有 了 以 上 两 个 结论 以 后 ， 寻 址 问题 将 变 得 非常 容易 。 例 如 ， 可 以 通过 [ebp+8]〈 即 
[ebp+4+4]) 访问 参数 i。 当 然 ， 在 这 个 过 程 中 ,访问 的 越界 控制 完全 是 由 编译 器 处 理 的 ， 编 
译 器 必须 准确 计算 每 个 对 象 的 偏 移 ， 以 及 预 留 的 空间 等 。 这 是 一 项 非常 精巧 的 工程 ， 稍 有 不 
慎 ， 就 将 导致 编译 结果 不 正确 。 值 得 注意 的 是 ， 关 于 系统 栈 的 布局 形态 并 不 唯一 ， 因 此 ， 以 


上 两 个 结论 未 必 适 用 于 任何 编译 器 。 不 过 ， 笔 者 可 以 肯定 地 说 ， 栈 分 配 的 基本 思路 必定 如 


此 ， 差 异 仅 可 能 存在 于 一 些 实现 的 


有 些 优化 编译 器 不 必 借助 于 ebp 寻 恒 


止 ， 而 是 直接 使 用 


esp 是 可 能 发 生变 化 的 《和 嵌 套 调用 


其 他 函数 )， 


加 


趣 的 读者 可 以 尝试 。 而 且 ， 可 以 肯定 


做 法 


的 是 ， 这 是 


最 后 简单 解释 


下 关于 存储 区 布 


节 中 。 例 如 ， 需 要 保护 的 寄存 器 个 数 可 
esp。 那 档 
因此 ， 计 算 偏 移 的 问题 将 变 得 异常 复杂 。 有 兴 
绝对 可 行 的 。 


至 


能 有 差异 。 
了 围 内 


于 整个 函数 范 


和 的话， 由 


局 的 问题 。 


实 参 存储 区 的 布局 是 根据 实 参 的 压 栈 顺序 而 


定 的 。 一 般 而 言 ， 为 了 便于 函数 顺 请 


访问 实 参 ， 克 


决 方案 ， 这 是 不 存在 但 


据 函 数 


8.2.3 深入 理解 栈 式 存 储 分 配 


在 编译 器 设 i 
较 特殊 的 语言 机 


E 何 异议 的 。 而 变量 存储 
局 部 变量 的 个 数 及 所 占 空间 的 大 小 分 配 相应 的 存储 
到 存储 区 中 的 问题 ， 已 经 在 8.1.2 节 


E 传 递 实 参 时 ， 将 实 参 逆序 压 栈 是 通用 的 解 


区 的 布 


局 则 完全 是 | 


编译 器 决定 的 ， 编 译 器 林 
局 部 变量 到 底 是 如 何 映射 


区 。 至 于 


ph 作 了 详细 讨论 ， 不 


十 中 ， 栈 式 存储 分 配 是 一 种 应 用 极 广 的 存储 分 配 策 
制 讨论 栈 式 存储 分 配 的 应 


> 六 
站 三 各 甸 


理解 。 当 然 ， 这 里 仅 从 原 到 
1. 可 变 参数 


再 次 


E 使 读者 对 这 个 极 


述 。 


结合 


各 。 本 小 节 将 结合 几 个 比 
重要 的 机 制 有 更 深刻 的 


其 蝇 


EE 的 角度 加 以 剖析 ， 不 会 过 多 关 济 


熟悉 C 语言 的 读者 对 了 


F 可 变 参 数 应 该 并 不 陌生 。 虽 然 在 实际 编程 中 ， 刻 意 应 有 


P 的 实现 细节 。 


一 一 、\ 


可 变 参 数 


的 场合 3 
scanf 了 ， 其 声明 形式 如 下 : 


不 算 太 多 ， 但 是 ， 接 触 可 变 参数 的 机 会 却 并 不 少 。 


最 常见 的 例子 可 能 就 是 printf、 
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【声明 8-2】 


int printf(const char* Format,...); 


int scanf(const char* Format,...); 


从 传 参 的 角度 来 说 ， 可 变 参 数 的 传递 与 普通 参数 的 传递 并 不 存在 明显 的 差异 ， 都 是 将 实 
参 逆序 压 栈 实现 的 。 而 可 变 参 数 的 关键 问题 就 在 于 函数 本 身 是 无 法 得 知 实 参 存储 区 大 小 的 ， 
这 个 信息 只 能 由 调用 点 计算 确定 。 因 为 各 调用 点 传递 的 参数 个 数 可 能 是 不 同 的 ， 故 所 需 的 实 
参 存储 区 的 空间 数量 也 是 不 同 的 。 在 这 种 情况 下 ， 实 参 存储 区 的 清理 工作 就 只 能 由 调用 点 完 
成 了 ， 如 图 8-10 所 示 。 
printf("%d,%d,%d",ab,c); 
00401000 mov caxsdword ptr [_c (40338Ch)] 
00401005 mov ecx,dword ptr [_b (403388Dj] 
0040100B mov edx,dword ptr [_a (403390Dj] 
00401011 push eax 
00401012 push ecx 
00401013 push edx 
00401014 push offset string "%d,%d,%d" (4020F4h) 
00401019 cal dwordptr[_imp_ printf(4020AOD] 
0040101F add esp,10h 
图 8-10 ”printf 调用 点 的 反 汇 编程 序 
在 处 理 可 变 参数 时 ，C 编译 器 只 会 遵守 _cdecl 调用 约定 ， 即 使 用 户 显 式 地 将 调用 约定 设 
置 为 _ stdcall 也 是 无 效 的 。 原 因 很 简单 ，_stdcall 规定 清 栈 工作 是 由 被 调 函数 完成 的 ， 因 此 ， 
这 是 不 满足 可 变 参数 的 基本 条 件 的 。 
值得 注意 的 是 ， 在 实现 可 变 参数 时 ， 由 调用 点 完成 清 栈 工 作 是 最 常见 且 便 捷 的 处 理 ， 但 
并 不 是 唯一 的 方案 。 实 际 上 ， 试 图 由 函数 本 身 完成 清 栈 工 作 同 样 是 可 行 的 ， 其 基本 思想 就 是 
调用 点 将 计算 得 到 的 实 参 存 储 区 的 实际 大 小 也 以 参数 的 形式 传递 给 被 调 函数 ， 而 被 调 函数 则 
恨 据 该 参数 的 值 在 返回 前 完成 清 栈 工作 。 当 然 ， 这 个 过 程 是 需要 双方 协调 的 ， 目 前 ， 并 没有 
标准 的 调用 协议 支持 。 


2. 变 长 数据 的 分 配 


长 数据 对 编译 器 的 设计 提 


个 函数 体内 改变 AR 的 长 度 或 者 布 
a as 这 个 计算 过 程 是 | 


在 一 些 程序 设计 语言 中 ， 
当然 ， 相 对 于 定 长 数据 而 


三 者 


变 长 数据 的 应 用 是 非常 
变 长 数据 的 灵活 程度 是 
出 了 挑战 ， 原 因 不 难 


泛 的 ， 例 如 ， 


pr 记 亿 


和 手 付 


j 户 更 愿意 接受 的 主要 
理解 。 对 于 栈 式 存储 分 配 机 秆 
局 是 不 可 能 实现 的 。 因 为 一 个 函数 的 AR 完全 是 根据 局 部 


4 


人 


运行 过 程 中 动态 改变 局 部 变量 
实际 上 ， 解 决 变 长 数据 的 问题 并 不 复杂 。 


。 在 i386 中 ， 堆 


的 管理 


CG 


一 些 理 接口 伐 
> 而 


ee 


管 
日 
年 
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t 用 户 使 朋 


。 在 早期 ，C、Pascal 等 编译 器 # 
直接 为 用 户 提供 了 malloc、free 之 类 的 堆 管理 接口 ， 


的 实际 长 度 


编译 器 完成 的 。 因 


在 讲述 逻辑 地 址 空 


此 ， 也 就 不 和 


通常 是 由 操作 系统 监控 的 ， 而 操作 系统 仅仅 以 系统 调用 的 天 


和 


串 、 变 长 数组 等 。 
原因 。 不 过 ， 变 
而 言 ， 试 图 在 一 


能 接受 


s 间 时 ， 笔 者 引入 了 堆 的 概 


多 式 暴 


不 会 将 用 户 数据 分 配 到 堆 空 


间 


以 便 用 户 动 态 申请 与 释放 存储 
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空间 。 不 过 ， 在 近 二 十 多 年 中 ， 变 长 数据 类 型 已 经 逐渐 成 为 了 程序 设计 语言 不 可 缺少 的 组 成 
部 分 。 因 此 ， 编 译 器 设计 者 也 有 必要 关注 这 方面 的 话题 。 

图 8-11 描述 了 s0、sl 两 个 字符 串 变 量 的 内 部 存储 形式 。 在 系统 栈 中 ， 编 译 器 并 不 会 村 
据 字符 串 的 实际 长 度 分 配 存储 空间 ， 而 只 是 为 其 分 配 一 个 指针 空间 ， 该 空间 中 存储 的 就 是 一 
个 位 于 堆 中 的 数据 块 的 地 址 ， 而 该 数据 块 中 存储 的 才 是 字符 串 的 实际 值 。 访 问 字符 串 值 时 ， 
通过 间接 寻 扯 访问 即 可 。 关 于 堆 的 话题 ， 笔 者 作 三 点 说 明 : 


S0 | 00005000 
| 
S1 | 0000EB00 


图 8-11 变 长 数据 的 存储 示意 图 


(1) 数据 块 与 堆 。 事 实 上 ， 一 次 系统 调用 申请 得 到 一 块 存储 区 即 为 一 个 数据 块 ， 可 以 视 
作 当 前 进程 从 操作 系统 得 到 的 一 块 存储 资源 。 除 了 显 式 释放 或 进程 退出 之 外 ， 数 据 块 是 不 会 
自动 被 操作 系统 回收 的 。 至 于 数据 块 的 分 配 策略 完全 是 由 操作 系统 决定 的 ， 编 译 器 、 用 户 进 
程 都 是 无 法 掌控 的 。 在 不 引起 冲突 的 情况 下 ， 通 常 ， 操 作 系统 是 允许 用 户 进程 动态 扩展 数据 
块 容量 的 。 当 然 ， 这 种 操作 还 是 比较 危险 的 ， 对 环境 的 耦合 程度 太 高 ， 因 此 不 推荐 使 用 。 

(2) 越界 访问 可 能 会 引起 异常 中 断 。 与 系统 栈 的 访问 不 同 ， 越 界 访问 数据 块 可 能 是 致 
的 。 主 要 的 监管 工作 是 由 操作 系统 完成 的 。 当 然 ， 不 同 的 操作 系统 对 此 的 理解 并 不 一 致 ， 
理 的 力度 也 不 尽 相 同 ， 但 仍然 不 建议 读者 尝试 。 

(3) 扒 是 线性 结构 。 图 8-11 似乎 并 不 能 表现 堆 的 实际 形态 ， 这 是 因为 笔者 更 想 突出 堆 
的 黑箱 特性 。 必 须 澄清 的 是 堆 的 内 部 结构 仍然 是 线性 的 ， 只 不 过 其 分 配 策略 对 于 用 户 是 完全 
透明 的 。 另 外 ， 值 得 注意 的 是 ， 这 里 的 堆 与 数据 结构 中 的 堆 是 完全 不 同 的 概念 ， 仅 仅 名 字 相 


琴 全 


同 而 已 。 
3. 悬空 引用 
在 C、Pascal 等 支持 指针 的 程序 设计 语言 中 ， 甚 空 引用 可 能 是 非常 危险 的 。 虽 然 悬 空 引 


用 可 以 被 视 作 一 种 语义 错误 ， 但 几乎 没有 一 个 编译 器 可 以 在 编译 阶段 分 析出 此 类 错误 。 更 可 


怕 的 是 ， 由 于 存储 块 释放 后 仍 可 能 被 重新 分 配 ， 因 此 ， 悬 空 引 用 的 错误 可 能 是 致命 的 且 不 可 
预知 的 。 例 如 ， 如 声明 8-3 所 示 : 
【声明 8-3】 
int * aa 
{ 
int 二 34; 
return &i; 
} 
main() 
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{ 
int *p=aa(); 
} 
aa 函数 返回 局 部 变量 i 的 地 址 。 不 过 ， 从 aa 函数 返回 到 main 函数 时 ， 由 于 aa 函数 的 
AR 被 释放 ， 因 此 ，p 指针 的 引用 就 是 悬空 引用 。 
但 悬空 引用 也 不 是 一 无 是 处 的 ， 在 处 理 一 些 复杂 结构 的 返回 值 时 ， 经 常会 借助 指针 ， 避 免 
见 余 的 数据 块 复制 。 当 然 ， 用 户 必 须 保证 这 种 “其 空 引 用 ”是 绝对 安全 的 。 如 声明 8-4 所 示 : 


【声明 8-4】 

int * aa() 

{ 
int i[10 上 ={1,2,3,4,5,6,7,8,9,10}; 
return &i; 

} 

main() 

{ 
int *p=aa(); 
int j; 
j=*(p+2); 

} 


在 编译 器 设计 中 ， 使 用 这 种 引用 机 制 处 理 复杂 结构 的 返回 值 是 非常 有 效 且 方便 的 。 


8.3 _ 存储 分 配 的 实现 


运行 时 的 存储 分 配 是 独立 存在 于 IR 优化 与 目标 代码 生成 之 间 的 。 通 常 ， 关 于 存储 空间 
方面 的 及 优化 应 该 是 在 存储 分 配 之 前 基本 完成 的 。 换 句 话 说 ， 本 阶段 涉及 的 有 效 变 量 、 常 
量 的 集合 是 相对 稳定 的 ， 至 少 在 IR 层次 上 是 不 再 进行 任何 相关 优化 的 。 否 则 ， 存 储 分 配 将 
不 得 不 面临 多 次 迭代 的 命运 。 事 实 上 ， 这 是 完全 没有 必要 的 。 

通过 前 面 的 学 习 ， 读 者 应 该 已 经 理解 栈 式 分 配 的 基本 思想 了 。 编 译 器 可 以 通过 计算 符号 
相对 过 程 局 部 数据 块 首 的 偏 黎 ， 最 终 实 现 寻 址 。 


程序 8-2 CodeGen.cpp 

1 void CCodeGen::MemoryAlloc() 

2  { 

2 int 1StackOffset=8; 

4 int iTmp=0; 
9 for(int i=0;i<SymbolTbl.TypelInfoTbl.size();i++) 
6 SymbolTbl.CalcTypeSize(i); 
也 RecOpAsm(".data"); 
8 RecContentAsm(";ConstSymbolList:"); 
9 for(int i=0;1<SymbolTbl.ConstInfoTbl.size();i++) 
10 { 
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11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
92 
到 
24 
25 
26 
27 
28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
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if (ISymbolTbl.ConstInfoTbl[i].m bUsed) 
continue; 
Switch (SymbolTbl.ConstInfoTbl[i].m ConstType) 


基 


case ConstType::SET: 
RecOpAsm(" Const"+itos(i)}+" db "+SetValue(SymbolTbl.ConstInfoTbl[il.m szName)); 
break:; 
case ConstType::BOOLEAN: 
if (SymbolTbl.ConstInfoTbl[i].m szName—"TRUE") 
RecOpAsm(" Const"+itos(1)+"=1"); 


else 


RecOpAsm(" Const"+itos(1)+"=0"); 
break:; 
case ConstType::PTR: 
RecOpAsm(" Const"+itos(1)+"=0"); 
break:; 


case ConstType::STRING: 


f 
1 


string szTmp=GetConstStr(SymbolTbl.ConstInfoTbl[i].m szName.substr 
(1,SymbolTbl.ConstInfoTbl[i].m_ szName.length()-2)); 
if (szTmp=="\""\"") 
RecOpAsm(" Text"+itos(i)+" db 0"); 


else 


RecOpAsm(" Text"+itos(i)+" db "+szTmp+",0"); 
RecOpAsm(" Const"+itos(D)+" dword 0"); 
break; 
} 
case ConstType::ENUM: 
case ConstType::INTEGER: 
RecOpAsm(" Const"+itos(i)+"="+itos(SymbolTbl.ConstInfoTbl[i].m iVal)); 
break; 
case ConstIype::EREAL: 
case ConstType::REAL.: 
RecOpAsm(" Const"+itos(i)+" dword "+rtos(SymbolTbl.ConstInfoTbl[il.m fVal)); 
break; 
default: 
RecOpAsm(" Const"+itos(i)+"="+SymbolTbl.ConstInfoTbl[i].m szName); 


RecContentAsm(";VarSymbolList"); 
RecOpAsm(" cvt DWORD 1 DUP(O)"); 
for(int 1=0;i<SymbolTbl.ProcInfoTbl.size();i++) 


if (SymbolTbl.ProcInfoTbl[i].m bUsed==false) 
continue; 
iTmp=iStackOffset; 
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if (SymbolTbl.ProcInfoTbl.at(i).m_ szName=="_noname" 


continue; 
for(int j=0;j<SymbolTbl.VarInfoTbl.size(O);j++) 
{ 
if (SymbolTbl.VarInfoTbl[j].m _iProcIndex==i 
&& SymbolTbl.VarInfoTbl[j].m eRank==VarInfo::PARA) 
{ 
SymbolTbl.VarInfoTbl[j].m iMemoryAlloc=iTmp; 
int 1Size=SymbolTbl.TypeInfoTbl[SymbolTbl.VarInfoTbl[j] 
.m iTypeLink].m iSize; 
if (iSize % 4!=0) 
iSize=(4-1Size % 4)+iSize; 
if (i!=0) 
RecOpAsm(" "+SymbolTbl.ProcInfoTbl.at(i).m_ szName+"$"+ 
SymbolTbl.VarInfoTbl[j].m_ szName+"="+itos(iTmp)); 
else 
RecOpAsm(" "+SymbolTbl.ProcInfoTbl.at().m_ szName+"$"+SymbolTbl 
.VarInfoTbl[j].m szName+" DWORD "+itos(iSize/4)+" DUP(O0)"); 
iTmp=iTmp+iSize; 
} 
} 


} 


for(map<int, VarInfo>::iterator it=SymbolTbl.VarInfoTbl.begin(); 
it!l=SymbolTbl.VarInfoTbl.end();it++) 


{ 
if (SymbolTbl.ProcInfoTbl[it->second.m iProcIndex|.m bUsed==false) 
continue; 
if (it->second.m iMemoryAlloc!=-1 && it->second.m iProcIndex!=0 
&& it->second.m eRank!=VarInfo::PARA) 
{ 
iTmp=-SymbolTbl.ProcInfoTbl.atGit->second.m iProcIndex).m ValSize; 
RecOpAsm(" "+SymbolTbl.ProcInfoTbl.at(it->second.m iProcIndex).m szName+"$"+ 
it->second.m szName+"="+itos(iTmp+it->second.m iMemoryAlloc)); 
} 
} 


for(map<int, VarInfo>::iterator it=SymbolTbl.VarInfoTbl.begin(); 
it!l=SymbolTbl.VarInfoTbl.end();it++) 


if (SymbolTbl.ProcInfoTbl[it->second.m iProcIndex|.m bUsed==false) 
continue; 
if ((it->second.m iMemoryAlloc!=-1 && it->second.m iProcIndex==0)) 
{ 
iTmp=SymbolTbl.TypeInfoTbl[it->second.m iTypeLink].m iSize; 
string szTmp=""; 
if iTmp==1) szTmp="BYTE"; 
if ITmp==2) szTmp=" WORD"; 
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103 if ITmp>=3) szTmp="DWORD"; 

104 if (iTmp % 4!=0) iTmp=(4-iTmp % 4)+iTmp; 

105 RecOpAsm(" "+SymbolTbl.ProcInfoTbl.at(it->second.m iProcIndex) 

106 .m szName+"$"+it->second.m szName+" "+szTmp+" "+itosGTmp/4)+" DUP(O)"); 
107 } 

108 } 

109 } 


第 5、6 行 : 调用 CalcTypeSize 函数 ， 重 新 计算 各 种 类 型 所 需 的 存储 空间 大 小 。 在 存储 
分 配 之 前 ， 这 项 工作 是 非常 有 意义 的 。 在 处 理 记录 类 型 时 ， 必 须 考虑 字段 布局 的 问题 。 因 为 
不 同 的 字段 布局 对 最 终 的 空间 大 小 是 有 一 定 影响 的 。 

第 7 行 : 生成 数据 段 声 明 的 汇编 代码 。 

第 9 一 49 行 : 遍历 常量 信息 表 ， 生 成 常量 声明 的 汇编 代码 。 

第 11 一 12 行 : 略 过 未 引用 的 常量 符号 。 

第 13 一 48 行 : 根据 常量 的 类 型 ， 生 成 常量 声明 代码 。 

第 15 一 17 行 : 生成 集合 类 型 常量 的 声明 代码 。 应 该 注意 两 点 : 

(1) 常量 对 应 的 汇编 符号 是 以 “_ConstXXX”* 形 式 命名 的 ， 其 中 ，XXX 即 为 常量 符号 的 
位 序号 。 

(2) 在 标准 Pascal 中 ， 集 合 常量 可 以 用 连续 32 个 字 节 的 值 表示 。 这 里 ，SetValue 函数 
就 是 将 集合 常量 的 字面 值 转换 为 由 32 个 独立 字 节 形式 组 成 的 字符 串 。 

第 18 一 23 行 : 生成 布尔 类 型 常量 的 声明 代码 。 在 Neo Pascal 中 ， 布 尔 类 型 常量 只 有 两 
种 取 值 ， 即 TRUE 和 FALSE。 根 据 Pascal 的 标准 ，TRUE 用 数值 “1” 表 示 ， 而 FALSE 则 
用 “0” 表 示 。 

第 24 一 26 行 : 生成 指针 类 型 常量 的 声明 代码 。 在 Neo Pascal 中 ， 指 针 类 型 常量 只 有 
NIL， 其 取 值 为 “0”。 

第 27 一 37 行 : 生成 字符 串 类 型 常量 的 声明 代码 。 应 该 注意 以 下 三 点 : 

(1) 字符 串 结束 符 即 数值 “0”。 

(2) 为 了 统一 字符 串 的 寻 址 处 理 ， 编 译 器 为 字符 串 常量 分 配 了 一 个 指针 存储 区 。 该 指针 
指向 的 存储 区 才 是 实际 的 字符 串 值 。 这 样 ， 无 论 是 字符 串 常 量 还 是 变量 寻 址 ， 都 必须 进行 
一 次 间接 寻 址 。 虽 然 这 种 处 理 不 得 不 以 牺牲 一 些 存储 空间 为 代价 ， 但 显著 减轻 了 程序 设计 的 
负担 。 
(3) 处 理 字 符 串 中 的 换行 符 。 在 MASM 宏 汇 编 声 明 中 ， 不 含 换行 符 的 字符 串 是 允许 出 
现在 数据 段 声 明 中 的 ， 当 然 ， 并 不 支持 C 语言 的 转 义 字符 。 因 此 ， 有 必要 对 符号 表 中 的 字符 
串 常 量 中 的 换行 符 作 特殊 处 理 。 

以 字符 串 “aanbb” 为 例 ， 其 对 应 的 汇编 声明 如 下 : 


网 


_Textl db "aa", 10, "bb", 0 
_Constl dword <_Textl 的 地 址 > 


在 Neo Pascal 中 ，_Constl 单元 存储 的 值 是 由 初始 化 程序 统一 设置 的 。 
第 38 一 41 行 : 枚 举 类 型 、 整 型 常量 只 需 直 接 获得 其 实际 取 值 即 可 。 
第 42 一 45 行 : 实 型 常量 只 需要 直接 获得 其 实际 取 值 即 可 。 不 过 ， 值 得 注意 的 是 ， 在 实 
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Se 


践 中 ， 很 多 汇编 器 是 不 支持 实 型 的 ， 经 常 需要 
是 最 常见 的 实数 内 码 标准 。 


编译 器 设计 之 路 


有 译 器 完成 实 型 值 的 内 码 计算 。 


口 


P IEEE 754 


~ 


EE 成形 参 的 声明 代码 。 分 配 算法 的 关键 就 是 计算 变量 


相对 于 AR 的 偏 移 ，AR 是 以 过 程 为 单位 讨论 的 。 
第 54、55 行 : 未 被 调用 的 过 程 不 参与 存储 分 配 。 
第 56 行 : 初始 化 偏 移 基 值 。 根 据 系 统 栈 的 布局 ， 形 参 的 初始 偏 移 基 值 就 是 8。 
第 57、58 行 : 匿名 过 程 信息 不 参与 存储 分 配 。 
第 59 一 78 行 : 遍历 变量 信息 表 ， 生 成 当前 过 程 所 属 形 参 的 声明 
第 61、62 行 : 判断 当前 变量 是 否 为 本 过 程 所 属 的 形 参 
第 64 行 : 为 变量 符号 分 配 存储 区 。 这 里 ， 只 需 在 符号 信息 中 记录 偏 移 值 即 可 。 


第 65 行 : 获得 当前 变量 符 

第 67、68 行 : 处 理 整 字 对 齐 。 这 昌 

第 69 一 74 行 : 生成 符号 的 汇编 声明 。 当 
应 该 作为 全 局 变量 


第 75 行 : 更 新 


站 
延 


， 并 非 所 


为 -1， 则 表示 该 


有 的 有 效 符号 都 需要 分 配 存储 空间 。 实 际 上 ， 在 分 配 存储 空间 之 前 ， 
进行 一 次 存储 空间 方面 的 优化 ， 以 实现 空间 的 共享 。 如 果 变 量 符号 
符号 不 需要 分 配 空间 。 
第 87~89 行 ， 计 算 各 过 程 的 局 部 变量 符号 的 偏 移 值 ， 并 生成 汇编 志明。 通常， 


号 所 需 存储 空间 的 大 小 。 以 计算 下 一 个 符号 的 偏 移 。 
E， 只 考虑 4 字 节 的 整 字 对 齐 情况 。 


。 大 本 
| 


参 机 秆 


F 0 时 ， 即 表示 该 符号 为 主 程序 的 
进行 静态 分 配 。 当 然 ， 目 前 笔者 并 没有 为 主 程序 提供 
局 移 计 数 变量 iTmp。 
第 79 一 91 行 : 遍历 变量 信息 表 ，4 


、 


由。 


成 不 可 优化 的 变量 符号 的 声明 。 这 里 ， 值 得 注意 的 


三 


碟 


m_ValSize 是 整个 过 程 的 
第 92 一 108 行 : 生成 全 
储 空 间 的 。 因 


关 了 


向 上 扩展 的 ， 而 系统 栈 的 扩展 却 | 
低地 址 为 基准 逐一 向 


上 分配。 


这 上 


;部 变量 


局 ] 


存储 


- 国 . 太 入 吕 I 


里 付 宁 


局 变 


此 ， 这 里 只 


需 根据 变量 所 需 空间 


丛 好 相反 ， 为 了 便 了 


x 的 大 小 。 
的 静态 声明 。 前 面 已 经 讲述 ] 


编译 器 还 会 


的 m_iMemoryAlloc 的 值 


存储 寻 址 都 


处 理 


，Neo Pascal 


这 两 个 值 都 是 由 


以 局 部 变量 存储 区 的 最 
有 ，m_iMemoryAlloc 的 值 是 变量 相对 于 0 的 偏 移 ， 而 
存储 优化 算法 计算 得 到 的 。 


Zs 


大 小 分 配 即 可 。 


存储 分 配 的 实现 ， 就 暂且 讨论 至 此 。 笔 者 还 要 说 明 一 点 ， 在 Neo Pascal 


局 变量 是 静态 分 配 存 


Ph， 存储 分 


配 算法 与 存储 优化 是 密 不 可 分 的 ， 严 格 地 说 ， 存 储 优化 是 必 不 可 少 的 。 然 而 ， 这 个 观点 并 不 
适用 于 一 般 化 的 情形 ， 在 很 多 编译 器 中 ， 存 储 优化 完全 是 可 选 的 。 不 过 ， 存 储 优化 本 身 并 不 
影响 调试 ， 因 此 ， 可 选 或 必 选 并 不 太 重 要 。 
| 8.4 存储 优化 
8.4.1 存储 优化 基础 

第 7 章 中 所 涉及 的 优化 不 论 是 简化 计算 ， 还 是 元 余 删 除 ， 其 目的 都 是 试图 通过 优化 算法 
提高 代码 执行 效率 。 本 小 节 将 引领 读者 从 另 一 个 视角 来 思考 有 关 优化 的 问题 ， 那 就 是 存储 优 


化 。 所 谓 “ 存 储 优化 ”名 
在 优化 技术 


已 
已 


读者 可 和 


让 ， 


是 通过 优化 算法 以 改善 目标 程序 在 执行 过 程 


分 


有 机 会 接触 到 一 个 概念 


即 存储 层次 优化 。 江 


Cn» 


FP 对 存储 资源 的 耗费 。 
FE 意 ， 存 储 层次 优化 与 


这 里 所 讨论 的 存储 优化 是 两 个 完全 不 同 的 概念 。 存 储 层次 优化 主要 是 关注 如 何 利用 存储 器 的 
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层次 〈 例 如 ， 常 见 的 三 级 存储 结构 ) 来 提 
关注 代码 执行 的 效率 ， 换 句 话说 ， 它 本 身 不 会 对 代码 执行 


运 和 


高 代码 执行 效率 的 一 种 优化 


; 云 。 


效率 产 
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而 存储 优化 并 不 
生 任 何 影响 。 下 面 ， 


通过 一 


个 简单 的 实例 来 看 看 存储 优化 的 基本 思想 。 
如 图 8-11 所 示 ， 读 者 不 必 关 注 aa 函数 是 怎样 实现 的 ， 假 设 “Fain0 
aa 是 一 个 非 空 函数 即 可 。 在 这 个 实例 中 ，i、j、K 的 作用 域 都 是 整 “| 
个 main 函数 体 。 显 然 ， 根 据 存储 分 配 的 原则 ， 编 译 器 必须 分 配 三 int ij,k; 
个 存储 单元 用 于 分 别 存储 i、j、k 的 值 。 不 过 ， 从 程序 逻辑 本 身 的 0 
特点 来 说 ， 不 难 发 现 ， 即 使 将 i、j、k 都 分 配 在 同一 个 存储 单元 a 
中 ， 也 不 会 给 程序 执行 结果 带 来 任何 影响 。 这 种 依赖 于 程序 逻辑 Ee 
实现 的 存储 共享 策略 就 是 存储 分 配 的 基本 思想 。 aa()); 
存储 优化 的 成 果 就 是 提出 一 个 存储 分 配 的 策略 或 者 方案 ， 其 |} 
主要 描述 的 就 是 哪些 变量 可 以 共享 同一 个 存储 单元 。 而 存储 分 配 8-11 存储 优化 引 例 
算法 就 可 以 根据 这 份 方案 来 完成 实际 的 存储 分 配 工 作 。 
通用 的 存储 优化 算法 是 有 一 定 难度 的 ， 由 于 篇 幅 所 限 ， 笔 者 并 不 打算 深入 讨论 。 这 里 ， 
只 针对 编译 器 产生 的 临时 变量 进行 分 配 优化 ， 这 是 相对 容易 且 有 效 的。 在 IR 生成 阶段 ， 乡 
译 器 始终 没有 关注 如 何 避 免 临 时 变量 元 余 的 问题 。 在 很 多 情况 下 ， 即 使 是 一 个 非常 简单 的 源 
程序 ， 其 对 应 的 目标 程序 所 涉及 的 临时 变量 数目 也 是 非常 可 观 的 ， 甚 至 可 以 用 “庞大 ”二 
来 形容 ， 这 是 用 户 不 能 接受 的 。 笔 者 可 以 举 一 个 简单 的 例子 
例 8-2 临时 变量 存储 分 配 优化 实例 ， 见 表 8-2。 
表 8-2 ”临时 变量 存储 分 配 优 化 
(a) 输入 源 程序 (b) 优化 前 的 下 (c) 优化 后 的 下 
var a,b,c:integer; 0: (ADD 4 ,A,B, TO0) 0: (ADD 4 ,A.B，T0) 
begin 1: (ADD 4 ,_T0,C, T1) 1: (ADD 4 ,_T0,C, T1) 
a:=atbtce; 2: (ASSIGN 4 , Tl,null,A) 2: (ADD 4 , T1,B, T2) 
b:=a+b+c; 3: (ADD 4 ,A,B, T2) 3: (ADD 4 , T2,C, T3) 
c:=atbte; 4: (ADD 4 ，T2,C，T3) 4: (ADD 4 ，T1,，T3，T4) 
result:=c; 5: (ASSIGN 4 ，T3,nulLB) 5: (ADD 4 ，T4,C，T5) 
end; 6: (ADD 4 ,A,B, T4) 6: (ASSIGN 4 ,TS,null,RESULT) 
7: (ADD 4 ，T4,C，T5) 
8: (ASSIGN 4 ,TS,null,C) 
9: (ASSIGN 4 ,C,null,RESULT) 
这 样 一 个 简单 的 程序 ， 也 需要 耗 用 6 个 临时 变量 ， 如 果 编 译 一 个 实际 的 应 用 程序 ， 消 耗 
数 千 甚至 更 多 的 临时 变量 并 不 罕见 。 因 此 ， 寻 找 一 种 较 优 的 分 配 策略 是 极其 重要 的 。 注 意 ， 
本 例 中 (c) 列 只 是 在 (b) 列 的 基础 上 做 了 常量 传播 、 复 写 传播 等 优化 后 的 结果 。 虽 然 代 码 的 规 
模 有 所 减 小 ， 但 是 临时 变量 的 个 数 并 没有 任何 变化 。 存 储 分 配 的 优化 并 不 会 改善 代码 本 身 的 
形式 ， 只 是 提出 了 一 份 较 优 的 存储 分 配 的 策略 。 在 这 个 例子 中 ， 优 化 算法 提出 的 临时 变量 分 
配方 案 即 为 : _T0、_T2、_T3、_T4、_T5 共享 一 个 存储 单元 ，_T1 独 享 一 个 存储 单元 。 如 果 
读者 根据 这 个 分 配方 案 仔细 推 喜 (O) 列 的 了 豚 ， 可 以 发 现 ， 程 序 依 然 是 正确 且 安全 的 。 然 而 ， 
ee 这 是 令 人 欣慰 的 。 那 么 ， 为 什么 _T1 不 能 与 其 他 临时 变 
量 共 享 同 一 个 存储 单元 呢 ? 这 个 问题 非常 简单 ， 如 果 共 % 享 同一 个 存储 单元 那么 ， 第 2 行 、 
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第 3 行 的 定 值 将 影响 _Tl 本 身 的 定 值 〈 即 由 第 1 行 IR 所 置 入 的 值 )。 然 而 ， 由 于 第 
存在 _Tl 的 引用 点 ， 此 时 ，_T1 的 值 可 能 已 经 不 是 原来 由 第 1 行 IR 所 确定 的 ， 而 是 由 第 
所 确定 的 ， 这 显然 与 原始 的 语义 不 符 。 

至 此 ， 笔 者 通过 一 个 实例 简单 介绍 了 存储 优化 的 概念 及 其 意义 。 存 储 优 化 的 前 提 就 是 保 
证 访问 的 安全 性 ， 而 这 也 正 是 其 算法 的 关键 所 在 。 实 际 上 ， 本 书 讨论 的 存储 优化 模型 与 通用 
的 存储 优化 算法 的 差异 就 在 于 冲突 检测 机 制 。 讨 论 临 时 变量 的 冲突 检测 远 比 普通 的 用 户 变 量 
容易 得 多 。 通 常 ， 冲 突 可 以 利用 图 或 者 网 结构 描述 ， 如 常见 检测 算法 就 是 基于 图 着 色 思 想 实 
现 的 。 在 经 典 编译 技术 中 ， 图 着 色 更 多 应 用 于 寄存 器 分 配 算 法 中 ， 主 要 用 于 描述 寄存 器 的 使 
用 冲突 。 


8.4.2 存储 优化 的 实现 


前 面 ， 读 者 已 经 了 解 了 存储 分 配 优化 的 基本 概念 ， 本 小 节 将 从 实现 的 角度 来 详细 分 析 相 
关 细 节 。 无 论 存 储 优化 算法 如 何 激进 ， 变 量 访问 不 冲突 是 不 可 逾越 的 底线 ， 这 是 编译 安全 性 
的 保证 。 下 面 ， 笔 者 只 讨论 一 种 特殊 的 情况 ， 即 临时 变量 的 存储 优化 。 

临时 变量 是 由 编译 器 自动 产生 的 ， 因 此 ， 编 译 器 对 其 的 控制 力度 要 远 胜 于 普通 变量 。 针 
对 临时 变量 的 特点 ， 讨 论 存储 优化 就 简单 得 多 了 。 在 Neo Pascal 中 ， 为 了 便于 算法 实现 ， 算 
法 讨论 的 临时 变量 必须 满足 如 下 三 个 条 件 : 

(1) 在 整个 程序 范围 内 ， 只 能 存在 一 次 定 值 和 一 次 引用 。 

(2) 一 次 定 值 和 一 次 引用 是 在 同一 个 基本 块 内 的 。 

(3) 定 值 点 位 于 引用 点 之 前 。 

也 就 是 说 ， 只 有 满足 这 三 个 条 件 的 临时 变量 才 可 能 进行 存储 人 优化。 当然， 这 只 是 优化 之 
前 的 一 项 准备 工作 而 已 。 那 么 ， 这 三 个 条 件 是 否 可 以 被 大 多 数 临时 变量 接受 呢 ? 虽然 三 个 条 
件 看 似 都 比较 苛刻 ， 但 对 于 许多 临时 变量 来 说 ， 却 是 可 以 接受 的 。 事 实 上， 现行 的 代 生成 
机 制 所 创建 的 临时 变量 是 非常 容易 达到 这 一 要 求 的 。 在 例 8-2 中 ， 不 难 发 现 ， 除 了 _TIl 之 
外 ， 其 他 的 临时 变量 都 是 本 优化 算法 的 工作 对 象 。 实 际 上 ， 读 者 可 以 尝试 更 多 的 例 程 ， 能 满 
足 这 三 个 条 件 的 临时 变量 应 该 超过 80%， 这 样 的 结果 是 令 人 兴奋 的 。 因 此 ， 基 于 这 三 个 条 件 
讨论 存储 分 配 优化 是 具有 现实 意义 的 。 注 意 ， 本 小 节 后 续篇 幅 中 不 作 特 殊 说 明 的 “变量 ”都 
是 指 满足 上 述 条 件 的 临时 变量 。 下 面 ， 就 来 讨论 临时 变量 存储 优化 的 实现 细节 。 
首先 ， 就 来 谈 谈 共享 存储 区 的 问题 。Neo Pascal 并 没有 设置 太 多 的 共享 存储 区 ， 在 通常 
情况 下 ， 每 个 过 程 只 拥有 一 个 共享 存储 区 。 而 共享 存储 区 的 大 小 是 根据 实际 使 用 该 共享 区 的 
变量 的 类 型 而 定 的 ， 即 为 各 个 变量 实际 容量 的 最 大 值 。 事 实 上 ， 人 针对 临时 变量 存储 优化 的 问 
题 设置 一 个 共享 存储 区 是 可 以 接受 的 。 虽然 未 必 能 得 到 最 优 的 分 配方 案 ， 但 应 该 是 工程 应 用 
领域 可 以 接受 的 次 优 解 。 而 设置 一 个 共享 存储 区 的 主要 优点 就 是 便于 算法 实现 。 

其 次 ， 就 要 收集 本 过 程 中 可 以 共享 存储 区 的 临时 变量 。 由 于 本 小 节 涉 及 的 临时 变量 的 定 
值 、 引 用 必定 位 于 同一 基本 块 内 ， 因 此 ， 位 于 不 同 基 本 块 内 且 满 足 条 件 的 临时 变量 是 可 以 共 
享 存储 区 的 。 这 里 ， 编 译 器 只 需要 确定 在 一 个 基本 块 内 可 共享 存储 区 的 临时 变量 集合 即 可 。 
假设 临时 变量 集合 s 的 所 有 元 素 的 定 值 、 引 用 点 都 位 于 同一 个 基本 块 内 ， 且 它们 可 以 共享 同 
一 存储 区 。 如 果 试 图 将 变量 v 加 入 集合 s， 那 么 ，v 必须 满足 两 个 条 件 : 

(1) 变量 v 的 定 值 、 引 用 点 也 必须 位 于 该 基本 块 内 。 
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(2) 集合 s 中 的 任意 变量 i 都 与 v 不 冲突 。 所 谓 “ 冲 突 ” 就 是 指 两 个 变量 从 定 值 点 到 引 


用 点 之 间 的 IR 所 构成 的 集合 的 交集 为 空 。 


最 后 ， 选 择 临时 变量 的 顺序 也 是 值得 关注 的 。 这 主要 与 Neo Pascal 的 实现 有 关 ， 因 为 
Neo Pascal 只 考虑 为 每 个 过 程 分 配 一 个 临时 变量 的 共享 存储 区 。 在 这 种 情况 下 ， 优 化 的 效果 
与 选择 临时 变量 的 顺序 是 密切 相关 的 。 例 如 ， 已 知 $ 个 临时 变量 的 定 值 、 引 用 点 如 下 : 


_Tl(def:1,use:5) 
_T2(def:2,use:3) 
_T3(def:1,use:1) 
_T4(def:4,use:6) 
_TS$(def:6.use:8) 


假设 选择 变量 的 顺序 为 (_ Tl1、 T2、 T3、_T4、_T5)， 那 么 ,分析 过 程 如 下 : 


1 ) 清空 集合 So 


2) _T1 与 集合 s 中 的 变量 不 冲突 ，s={_T1}。 

3) _T2 与 集合 s 中 的 _T1 冲突 ， 略 过 T2。 

4) 同 理 ， T3、_T4 与 T1 也 是 冲突 的 ， 同 样 略 过 
5) _T5 与 集合 s 中 的 _T1 不 冲突 ，s={T1，T5} 。 


就 本 例 而 言 ， 优 化 算法 确定 {_T1，_T5} 是 可 以 共享 存储 区 的 ， 而 其 他 临时 变量 则 必须 独 
立 分 配 存储 区 。 不 过 ， 如 果 选 择 变量 的 顺序 为 ( T2、_T3、_T4、_T5、_T1) 时 ， 那 么 ， 最 终 


得 到 的 s 就 是 { T2、 T3、_T4、_T5}。 


别 主要 就 在 于 集合 s 中 的 元 素 个 数 。 


于 临时 变量 的 类 型 都 是 基本 类 型， 
的 存储 空间 的 差异 并 不 明显 ， 因 此 ， 后 者 的 方案 是 较 优 于 前 者 的 。 换 名 话说， 


不 同 变量 所 需 
两 个 方案 的 关 


这 里 ， 应 用 了 一 个 特殊 的 排序 方式 ， 即 按 每 个 临时 变量 的 use-def 得 到 的 差 值 由 小 至 大 


排序 。 实 际 上 ， 其 目的 就 是 优先 选择 引用 点 与 定 值 点 较 接 近 的 临时 变量 ， 只 
能 本 更 多 变量 加 入 共享 集合 中 。 
下 面 ， 就 来 详细 看 看 Neo Pascal 相关 源 代码 的 实现 。 


程序 8-3 MemShare.cpp 


] void CMemShare::TmpMemShare() 

2 

3 vector<TmpInfo> TmpVar; 

4 map<int,vector<LiveArea>> Conflict; 

5 CDataFlowAnalysis::DataFlowAnalysis(); 

6 for (int 1=0;i<SymbolTbl.ProcInfoTbl.size();i++) 

7 { 

8 map<int,int> VarMap=GetVar2IdMap(ifalse); 

9 SymbolTbl.ProcInfoTbl.at(i).m_ TmpMemShare.clear(); 
10 TmpVar.clear(); 
11 Conflict.clear(); 
2% for(map<int,int>::iterator it=VarMap.begin();it!=VarMap.end();it++) 
13 { 
14 if(!ISymbolTbl.IsTmpVar(it->first)) 
15 continue; 


有 这 样 才能 尽 可 
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16 if (VarDeflitos(i)+"$"+itos(it->first)].size()==1 && 

ly VarAllUse[itos(D)+"$"+itos(it->first)].size()==1) 

18 { 

19 int iDef=VarDefflitos(i)+"$"+itos(it->first)].at(0); 

20 int iUse=VarAllUsel[itos(i)+"$"+itos(it->first)].at(0); 

21 int iDefBlock=GetBlock(i,iDef); 

22 int iUseBlock=GetBlock(i,iUse); 

23 if (iDefBlock==iUseBlock && iDef<=iUse) 

24 TmpVar.push_ back(TmpInfo(it->first,iDef,iUse,iDefBlock)); 

D5 } 

26 } 

2 sort(TmpVar.begin(),TmpVar.end(),TmpInfoCmp); 

28 for(vector<TmpInfo>::iterator it=TmpVar.begin();it!=TmpVar.end();it++) 

29 { 

30 map<int,vector<LiveArea>>::iterator ConflictIt=Conflict.find(it->m iBlock); 
31 if (ConflictIt!=Conflict.end()) 

2 { 

33 vector<LiveArea>::iterator Veclt=ConflictIt->second.begin(); 

34 for(; VecIt!=ConflictIt->second.end();VecIt++) 

3 { 

36 if (it->m LiveArea.m iDef<Veclt->m iUse && 

30 it->m LiveArea.m iDef>VeclIt->m iDef) 

38 break:; 

39 if (it->m LiveArea.m iUse<=VeclIt->m iUse && 

40 it->m LiveArea.m iUse>VecIt->m iDef) 

41 break; 

42 if (it->m LiveArea.m iUse>=Veclt->m iUse && 

43 it->m LiveArea.m iDef<=VecIt->m iDef) 

44 break; 

45 } 

46 if (VecIt==ContflictIt->second.end()) 

47 { 

48 ConflictIt->second.push_ back(LiveArea(lit->m LiveArea.m iDet, 
49 it->m LiveArea.m iUse)); 

50 SymbolTbl.ProcInfoTbl.at().m_ TmpMemShare.insert(it->m iLink); 
51 } 

32 } 

S53 else 

54 { 

35 vector<LiveArea> TmpVec; 

56 SymbolTbl.ProcInfoTbl.at().m_ TmpMemShare.insert(it->m iLink); 
S57 TmpVec.push back(LiveArea(it->m LiveAream iDeb,it->m LiveArea.m iUse)); 
58 Conflict.insert(pair<int,vector<LiveArea>>(it->m iBlock,TmpVec)); 
59 } 

60 } 

61 } 

62 } 
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第 3 行 : 声明 临时 变量 集合 ， 即 该 集合 内 的 临时 变量 是 共享 同一 存储 区 的 。 其 中 ， 
TmplInfo 结构 用 于 描述 临时 变量 的 相关 信息 ， 声 明 如 下 : 
【声明 8-5】 


struct TmpInfo 


{ 


int m iLink; /指向 临时 变量 符号 信息 的 指针 
int m_iBlock; /指向 临时 变量 所 属 基本 块 信息 的 指针 
LiveArea m_ LiveArea.; /活跃 区 域 


上 
m iLink: 指向 临时 变量 符号 信息 的 指针 ， 即 符号 在 变量 信息 表 中 的 位 序号 
m _iBlock: 指向 临 时 变量 所 属 基 本 块 信 息 的 指针 。 
m _LiveArea: 用 于 描述 临时 变量 的 活跃 区 域 ， 即 临时 变量 的 定 值 点 、 引 用 点 信息 。 由 定 
值 点 到 引用 点 构成 的 一 个 IR 序列 的 区 域 即 为 活跃 区 域 。 如 果 两 个 临时 变量 的 活跃 区 域 存在 
交集 ， 则 表明 这 两 个 临时 变量 是 冲突 的 ， 也 就 无 法 共享 同一 存储 区 。LiveArea 结构 的 声明 形 
式 如 下 : 


【声明 8-6】 
struct LiveArea 


{ 


int m_iDef; 


int m_iUse; 
上 

第 4 行 : 声明 基本 块 冲突 映射 表 。 由 于 本 算法 并 不 是 以 基本 块 为 主线 遍历 的 ， 因 此 需要 
考虑 应 用 Conflict 映射 表 来 描述 整个 过 程 的 临时 变量 冲突 信息 。 其 中 ，Conflict 是 以 基本 块 
的 指针 作为 关键 字 ， 而 vector<LiveArea> 则 用 来 描述 该 基本 块 内 已 占用 的 活跃 区 域 。 当 一 个 
临时 变量 试图 加 入 共享 集合 时 ， 必 须 保 证 该 变量 的 活跃 区 域 与 所 属 基 本 块 的 所 有 活跃 区 域 都 
不 存在 冲突 〈 即 活跃 区 域 不 存在 交集 )。 

第 5 行 : 调用 函数 完成 数据 流 分 析 。 

第 6 一 26 行 : 以 过 程 为 单位 ， 分 析 共 享 存储 区 的 临时 变量 集合 。 

第 8 行 : 获取 当前 过 程 的 变量 集合 。 

和 


第 位- 直行 遍历 变量 集合 ， 将 满足 存储 优化 基本 条 件 的 临时 变量 加 入 TmpVar 中 。 
第 14 一 15 行 : 判断 是 否 为 临时 变量 。 

第 16 一 17 行 : 判断 该 临时 变量 是 否 只 存在 一 次 定 值 与 一 次 引用 。 

第 19 一 22 行 : 根据 临时 变量 的 定 值 、 引 用 信息 ， 获 取 定 值 、 引 用 点 所 属 的 基本 块 号 。 


第 23 行 : 判断 定 值 、 引 用 点 是 否 位 于 同一 基本 块 内 ， 定 值 点 的 位 置 是 否 先 于 引用 点 。 
第 24 行 : 满足 上 述 条 件 的 临时 变量 就 是 算法 的 工作 对 象 ， 将 其 加 入 TmpVar 集合 。 

第 27 行 : 对 TmpVar 集合 进行 排序 ， 按 活跃 区 域 由 小 至 大 排列 。 

第 28 一 61 行 : 依次 选择 TmpVar 集合 中 的 临时 变量 ， 将 其 加 入 Conflict 中 ， 当 然 ， 前 提 
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Se 


就 是 不 发 和 9 
第 30 行 : 获得 当前 临时 变量 所 属 的 基本 块 的 活跃 区 域 集合 。 
第 31 行 : 判断 Conflict 中 是 否 存在 该 基本 块 的 活跃 区 域 集 合 。 
第 34 一 45 行 : 遍历 基本 块 的 活跃 区 域 集 合 ， 判 断 是 否 存 在 冲突 。 


第 46 一 51 行 : 如 果 当 前 临时 变量 的 定 值 及 引用 点 都 不 包含 在 
中 ， 即 表示 不 存在 任何 冲突 ， 则 可 以 将 其 加 入 该 基本 块 的 活跃 区 域 集 


E 活 跃 区 域 的 冲突 。 


第 50 行 : 将 当前 临时 变量 加 入 过 程 m_TmpMemShare 集合 中 。 
第 $4 一 59 行 : 由 于 Conflict 中 不 存在 关于 所 属 基 本 块 的 活跃 区 域 集 合 的 描述 信息 ， 则 


需要 重新 生成 一 个 活跃 区 域 集合 ， 并 将 当前 临时 变量 的 活跃 区 域 加 入 该 集合 。 同 时 ， 将 变 
本 身 加 入 过 程 的 m_TmpMemShare 集合 中 。 
比 ， 已 经 得 到 了 一 个 关于 过 程 的 可 共享 存储 区 的 临时 变量 集合 ， 这 个 集合 是 后 续 存 储 


至 J 


优化 分 配 的 关键 所 在 。 编 译 器 将 根据 这 个 集合 确定 哪些 变量 需要 独立 分 配 空间 ， 而 哪些 变 
则 是 共享 同一 片 存储 区 域 的 ， 以 及 决策 共享 存储 区 的 设置 与 相关 的 应 用 策略 。 下 面 ， 就 来 看 
看 Neo Pascal 是 如 何 根据 过 程 的 m_TmpMemShare 集合 实现 优化 分 配 的 。 结 合 8.3 节 存 储 分 


配 算法 的 详细 分 析 ， 可 能 更 有 利于 深入 理解 。 


程序 8-4 MemoryAlloc.cpp 
void CMemoryAlloc::MemoryAlloc() 


1 
2 
3 
4 
3 
6 
双 
8 
加 


10 
11 


378 


{ 


for(int 1=0;i<SymbolTbl.TypeInfoTbl.size();i++) 


{ 
SymbolTbl.CalcTypeSize(D); 
} 
for(int 1=0;i<SymbolTbl.VarInfoTbl.size();i++) 
{ 
SymbolTbl.VarInfoTbl[i].m iMemoryAlloc=-1; 
} 


for(vector<ProcInfo>::iterator it=SymbolTbl.ProcInfoTbl.begin(); 
itl=SymbolTbl.ProcInfoTbl.endO;it++) 


{ 
for(vector<IRCode>::iterator itl=it->m Codes.begin();itl!=it->m Codes.end();itl++) 
{ 
if (it1->m Opl.m iType==OpInfo::CONST) 
SymbolTbl.ConstInfoTbl[litl->m Opl.m iLink].m bUsed|=true; 
if (it1->m Op2.m iType==OpInfo::CONST) 
SymbolTbl.ConstInfoTbl[litl->m Op2.m iLink].m bUsed|=true; 
if (it1l->m Rslt.m iType==OpInfo::CONST) 
SymbolTbl.ConstInfoTbl][itl->m Rslt.m iLink].m bUsed|=true; 
} 
} 
for(int i=0;i<SymbolTbl.ProcInfoTbl.size();i++) 
{ 
if (SymbolTbl.ProcInfoTbl.at(i).m _eFlag!=ProcInfo::None) 
continue; 


该 基本 块 所 有 活跃 区 域 
人 


三 
里 


三 | 


里 
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29 
30 
31 
强 
33 
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35 
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41 
42 
43 
44 
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46 
47 
48 
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50 
51 
52 
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vector<VarMem> Tmp; 
int MaxTmp=-1; 
for(int j=0;j<SymbolTbl.VarInfoTbl.size();j++) 


{ 
if (il=SymbolTbl.VarInfoTbl[j].m_iProcIndex || 
SymbolTbl.VarInfoTbl[j].m eRank==VarInfo::PARA ) 
continue; 
if (1==0 && SymbolTbl.IsProcVar(SymbolTbl.VarInfoTbl[j].m szName)) 
continue; 
if (SymbolTbl.VarInfoTbl][j].m eRank==VarInfo::VAR ) 
{ 
map<string,vector<int>>::iterator it=VarDetf.find(itosQ)+"$"+itos(Q)); 
map<string,vector<int>>::iterator itl=VarAllUse.find(itos(1)+"$"+itos(Q)); 
if ((it==VarDef.end() || it->second.empty()) && (itl==VarAllUse.end() | 
itl1->second.empty())) 
continue; 
} 
Tmp.push back(VarMem(j,SymbolTbl.TypeInfoTbl[SymbolTbl.VarmfoTblD] 
.m iTypeLink|.m iSize)); 
if (SymbolTbl.ProcInfoTbl.at(i).m TmpMemShare.count(j)>0) 
{ 
if (MaxTmp==-1) 
{ 
iMaxTmp=Tmp.size()-1; 
Tmp.atiMaxTmp).m bMaxTmp=true; 
} 
else 
{ 
if (Tmp.at(Tmp.size()-1).m iSize>Tmp.ati MaxTmp).m iSize) 
{ 
Tmp.atiMaxTmp).m bMaxTmp=false; 
iMaxTmp=Tmp.size()-1; 
Tmp.atiMaxTmp).m bMaxTmp=true; 
} 
} 
} 
} 


sort(Tmp.begin(),Tmp.end(),VarMemCmp); 
int iOffset=0; 
int MaxTmpOffset=-1; 
int MaxLink=iMaxTmp!=-1?Tmp.ati Max Tmp).m iLink:-1; 
vector<int> TmpAlloc; 
for(int j=0;j<Tmp.size();j++) 
{ 
if (SymbolTbl.ProcInfoTbl.at().m_ TmpMemShare.count(Tmp.atQj).m iLink)==0 | 
Tmp.atO).m_bMaxTmp) 


编译 器 设计 之 路 


第 3 一 6 行 : 


第 7 一 10 行 : 初始 化 所 有 变 
经 了 解 了 m iMemoryAlloc 属性 
第 11 一 23 行 : 遍历 IR 序列， 根据 操作 数 的 类 别 ， 
第 24 一 101 行 : 
第 26、27 行 : 
第 30 一 64 行 : 
分 配 的 ， 


量 是 静态 


户 变 量 的 分 配 。 


第 32 一 34 行 : 
第 35、 36 行 : 
第 37~44 行 : 


第 45、46 行 : 
第 47~64 行 : 
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int iEmpty; 
switch(Tmp.at(j).m iSize) 
{ 

Case 3: 

case 1:iEmpty=1;break; 
case 2:iEmpty=2;break; 
default:iEmpty=4;break; 


} 


if (iOffset%iEmpty!=0) 

iOffset=iOffset+4-10ffset%iEmpty; 
if (Tmp.at(j).m bMaxTmp) 

iMaxTmpOffset=iOffset; 
SymbolTbl.VarInfoTbl[Tmp.atg).m iLink].m iMemoryAlloc=iOffset; 
iOffset+=Tmp.at(j).m _ iSize; 


TmpAlloc.push back()); 


for(int j=0;j<TmpAlloc.size() && iMaxTmpOffset!=-1;j++) 


SymbolTbl.VarInfoTbl[Tmp.at(TmpAlloc.at(j)).m iLink].m iMemoryAlloc=-1; 


{ 
} 
else 
{ 
} 

} 

{ 

} 


SymbolTbl.ProcInfoTbl.at(i).m_ TmpLink=iMaxLink; 
SymbolTbl.ProcInfoTbl.at(i).m_ValSize=iOffset%4==0?1Offset:iOffset+4-1Offset%4; 


在 存储 分 配 之 前 ， 重 新 计算 类 型 的 实际 占用 空间 大 小 。 
量 符 号 的 m iMemoryAlloc 属性 。 在 8.3 节 中 ， 读 
生 就 是 用 于 存储 变量 符号 相对 于 本 过 程 数据 块 的 偏 移 。 
分 析 常 量 的 引用 情况 。 


储 公 


当前 变量 符号 属于 m_TmpMemShare 


可 


ws 


遍历 过 程 信息 表 ， 计 算 变 量 符号 的 m_iMemoryAlloc 属性 。 

咯 过 未 被 调用 的 过 程 。 

遍历 变量 信息 表 ， 收 集 需 要 分 配 存 储 空 间 的 变量 符号 。 由 于 全 局 用 户 变 
因此 ， 这 里 只 考虑 局 部 变量 及 全 局 临时 变量 的 分 配 即 可 ， 并 不 涉及 全 局 用 
咯 过 非 当 前 过 程 的 变量 符号 。 

种 过 全 局 用 户 变 量 符号 。 

咯 过 没有 定 值 点 及 引用 点 的 变量 符号 。 

将 当前 变量 加 入 Tmp 向 量 中 。Tomp 向 量 是 一 个 存储 分 配 的 辅助 结构 。 


则 表示 该 变量 是 可 以 分 配 在 


共享 存储 区 的 。 
第 49 行 : 


iMaxTmp 变量 月 


iMaxTmp 的 初始 值 就 是 -1。 


第 30 一 62 行 : 如 果 当 前 变量 
向 该 变量 信息 ， 
第 65 行 : 按 占用 存储 空 
人 义 了 。 

第 70 一 94 行 : 遍历 Tmp 向 量 ， 计 和信 

人 # 间 。 需 要 分 配 存储 空 


d= 


是 至 


间 的 大 小 习 


于 标识 m_ TmpMemShare 集 


重 排 
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各 变量 


符号 的 m_iMemoryAlloc 属性 。 


合 中 所 需 存储 空间 最 多 的 变量 。 


目前 为 止 占用 空间 最 多 的 临时 变量 ， 则 将 ijMaxTmp 指 
并 设置 该 变量 的 m bMaxTmp 属性 为 true。 


Tmp 向 量 中 的 变量 信息 。 在 讨论 存储 布局 时 ， 笔 


足 如 下 两 个 条 件 之 一 : 
(1) 不 属于 m_iMemoryAlloc 集合 ， 即 为 不 可 共享 存储 区 的 变量 。 
(2) 是 占用 空间 最 多 的 可 共享 存储 区 的 临时 变量 。 


第 76 一 84 行 : 整 字 对 齐 处 理 ， 即 根 志 
第 85、86 行 : 如 果 当 前 变量 ; 


变量 占 用 的 空间 大 小 ， 计 


5 用 空间 最 多 的 可 共享 存储 区 的 临 时 变量 


磊 : 口 


iMaxTmpOffset 变量 暂 存 当前 的 偏 移 。 


第 87 行 : 


设置 变量 符号 的 m_iMemoryAlloc 属性 ， 即 相对 于 过 程 数 据 块 的 偏 


量 必定 满 


里 ， 则 使 用 


第 92 行 : 处 理 可 共享 存储 区 的 临时 变量 (不 是 占用 空间 最 多 的 临时 变量 )， 将 变量 符号 
靖 笨 尺 二 而 大 二 GDailos 向 是 让 


第 95 一 98 行 : 遍历 TmpAlloc 向 量 ， 回 填 共 享 存 储 区 的 变量 的 m_iMemoryAllic 属性 。 

第 99 行 ， 设 置 当前 过 程 的 m_TmpLink 属性 ， 该 属性 记录 的 是 占用 空间 最 多 的 可 共享 存 
储 区 的 临时 变量 的 位 序 

第 100 行 : 设置 当前 过 程 的 m_ValSize 属性 ， 该 属性 记录 的 是 当前 过 5 用 空间 
的 字 节 数 。 

在 现代 编译 器 设计 中 ， 关 于 存储 优化 的 算法 并 不 罕见 ， 在 并 行 、 藤 入 式 编译 等 领域 ， 都 
有 广泛 的 应 用 ， 其 理论 与 实现 技术 可 能 是 相对 复杂 的 。 不 过 ， 算 法 的 核心 仍然 在 于 检测 冲突 
与 描述 依赖 关系 。 以 怎样 的 数据 结构 及 算法 才能 更 有 效 地 检测 存储 空间 的 访问 冲 3 个 值 
得 深入 研究 的 话题 
| 8.5 深入 学 习 

通常 ， 基 于 一 个 实际 系统 讨论 运行 时 刻 存储 管理 的 问题 是 比较 适合 的 。 记 者 推荐 


几 本 程序 设计 语言 及 汇编 程序 设计 方面 的 


1、 程 序 设 计 语言 原理 ( 原 书 第 7 版 ) 


说 明 ; 这 本 书 是 程序 设计 语言 方面 的 巨著 ， 深 入 细致 地 讲解 
2、Intel 汇编 语言 程序 设计 
说 明 : 这 本 书 是 汇编 语言 程序 设计 方面 的 著作 ， 以 IA-32 体系 结构 为 例 ， 并 详细 前 述 了 汇编 语言 程序 设计 的 技巧 。 
3、 高 级 编译 器 设计 与 实现 〈 第 5 章 ) 
说 明 : 这 本 书 被 誉 为 “ 鲸 书 ”， 涉 及 许多 编译 器 设计 中 的 高 级 话题 ， 当 然 ， 它 最 值得 关注 的 就 是 优化 技术 。 


图 书 ， 供 读者 参考 学 习 。 


Robert W. Sebesta 


了 命令 式 语言 的 主要 结构 及 其 设计 与 实现 。 


Kip R. Irvine 


Steven S. Muchnick 
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B ER i 
罗 、 编译 器 设计 之 路 
ee 


8.6 ”实践 与 思 


1. 请 读者 思考 仅 依赖 esp 实现 寻 址 的 技术 难点 是 什么 ?是 否 可 以 在 Neo Pascal 的 基础 
上 扩展 实现 ? 

2. 标准 Pascal 并 不 支持 可 变 参 数 机 制 。 
使 之 支持 类 似 于 C 语言 的 可 变 参数 机 制 。 

3. 试问 为 什么 C 语言 不 支持 函数 返回 类 型 为 数组 ? 

4. 请 读者 在 Neo Pascal 的 基础 上 ， 实 现存 储 优化 算法 ， 使 其 能 支持 跨 基 本 块 、 多 次 引 
用 定 值 的 临时 变量 的 优化 。 

5. 如 何 分 析 与 描述 普通 变量 的 冲突 信息 ? 


] 8.7 大 师 风 采 一 一 Bjarne Stroustrup 


Bjarne Stroustrup: 计算 机 科学 家 ，C++ 语 言 创 始 人 。1950 年 12 月 30 日 出 生 于 丹 
麦 。1975 年 ，Stroustrup 获得 丹麦 奥 尔 胡 斯 大 学 数学 和 计算 机 科学 硕士 学 位 ， 并 于 
1979 年 获得 英国 剑桥 大 学 计算 机 科学 博士 学 位 。 他 是 AT&T 大 规模 程序 设计 研究 部 门 
负责 人 人。 目前， 任教 于 美国 德州 农机 大 学 计算 机 工程 学 院 。 

Stroustrup 最 令 世 人 瞩目 的 研究 成 果 就 是 C++ 语言 的 设计 与 实现 。1979 年 ， 他 开 
始 研 发 C++ 语言 ， 最 初 的 C++ 编译 器 的 目标 程序 就 是 C 语言 。 在 过 去 的 20 年 中 ，C++ 
成 为 了 最 炙手可热 的 编程 语言 之 一 。C++ 的 盛行 使 面向 对 象 程序 设计 思想 从 理论 研究 正 
式 走 向 了 实践 应 用 中 ， 让 软件 开发 人 员 切 实体 会 到 了 面向 对 象 程序 设计 的 优点 。 


一 


请 读者 尝试 在 Neo _ Pascal 的 基础 上 进行 扩展 ， 


第 9 章 目标 代码 生成 


The raising of the status of programmers suggested by the Theory Building View will have to be 


supported by a corresponding reorientation of the programmer education. 


] 9.1 目标 代码 生成 概述 


9.1.1 目标 代码 生成 基础 


目标 代码 生成 ， 亦 称 为 代码 生成 ， 是 经 典 编译 模型 中 最 后 一 个 阶段 。 其 输入 是 经 过 语 
法 、 语 义 分 析 及 优化 后 得 到 的 了 及， 而 其 输出 则 是 特定 的 目标 语言 程序 。 随 着 汇编 语言 的 成 


一 一 Pefer Naur 


熟 ， 现 代 高 级 语言 编译 器 已 经 很 少 直接 将 源 程序 转换 为 机 器 代码 了 ， 通 常会 选择 汇编 语言 作 


为 编译 器 的 上 


标语 言 。 不 过 ， 即 使 如 此 ， 代 码 生成 器 的 设计 仍然 很 大 程度 上 依赖 于 目标 机 的 


体系 结构 。 因 


编译 器 对 


此 ， 设 计 者 不 必 过 多 顾虑 该 模块 与 目标 机 的 耦合 程度 ， 这 是 不 可 避免 的 。 
代码 生成 器 的 要 求 是 比较 严格 的 。 通 常 ， 必 须 遵守 如 下 几 个 原则 : 


(1) 语义 等 价 。 这 是 代码 生成 器 的 设计 底线 ， 准 确 且 等 价 的 转换 才 是 有 意义 的 。 语 义 等 
价 是 编译 器 设计 的 基本 原则 ， 笔 者 已 经 多 次 声明 ， 其 重要 性 不 言 而 喻 。 

(2) 相对 高 效 。 理 论 上 的 最 优 代 码 是 不 可 判定 的 。 当 然 ， 很 大 程度 上 也 是 不 可 达到 的 。 
不 过 ， 这 并 不 意味 着 设计 者 可 以 任意 放纵 资源 耗费 。 即 使 是 硬件 资源 不 再 稀缺 的 今天 ， 目 标 


程序 的 性 能 仍然 是 评价 编译 器 设计 的 一 个 重要 指标 。 为 了 得 到 相对 较 优 的 代码 ， 编 译 器 还 引 
入 了 一 些 基于 目标 代码 实现 的 优化 算法 ， 通 常 称 为 指令 级 优化 。 关 于 指令 级 优化 的 话题 ， 笔 
者 将 在 本 章 中 稍 作 介绍 。 除 了 指令 级 优化 之 外 ， 存 储 层 的 优化 也 是 提高 目标 程序 效率 的 有 交 


途径 。 众 所 周知 ， 寄 存 器 、cache 的 访问 速度 远 胜 于 内 存 ， 因 此 ， 如 何 合理 分 配 寄存 器 以 及 
如 何 提 高 cache 的 命中 率 是 编译 器 设计 需要 关注 的 。 当 然 ， 就 算法 实现 而 言 ， 这 可 能 是 比较 


复杂 的 。 


(3) 扩展 性 好 。 在 通用 机 编译 器 中 ， 读 者 可 能 不 太 容 易 体 会 其 优越 性 。 因 为 要 真正 做 到 
通用 机 层次 上 的 跨 目 标 机 应 用 ， 除 了 编译 器 的 因素 之 外 ， 还 必须 考虑 操作 系统 的 差异 。 程 序 
员 更 愿意 接受 像 Java、.NET 之 类 的 跨 平台 应 用 ， 这 可 能 更 有 现实 意义 。 不 过 ， 在 一 些 租 入 


式 系统 的 编译 器 中 ， 可 变 目标 的 编译 器 可 以 使 程序 员 省 去 很 多 烦心 事 。 最 著名 的 可 变 目标 编 


译 器 就 是 GCC， 它 的 经 典 与 完美 已 在 前 文 阐述 。 当 然 ， 扩 展 性 也 是 一 柄 双 刃 剑 ， 实 践 证 


明 ， 即 使 是 经 典 的 可 变 目标 的 编译 器 也 很 难 与 专用 编译 器 媲美 。 例 如 ， 在 i386 结构 上 ,无 


论 是 目标 程序 的 性 能 还 是 编译 器 本 身 的 效率 ，GCC 都 无 法 与 Intel C++ 相 比 。 


鉴于 以 上 几 点 ， 试 图 设计 一 个 相对 完备 的 代码 生成 器 并 不 是 一 项 简单 的 工程 。 通 常 ， 牟 


代 编 译 技 术 的 观点 认为 ， 代 码 生成 器 主要 完成 如 下 三 项 任务 : 


无 法 详细 阐述 相关 细节 。 鉴 于 Neo Pascal 的 实现 及 本 书 篇 幅 ， 本 章 


编译 器 设计 之 路 


(1) 指令 选择 : 也 称 为 指令 筛选 ， 即 选择 一 个 实现 IR 操作 的 目标 机 指令 序列 。 
(2) 寄存 器 分 配 : 考虑 如 何 有 效 地 利用 有 限 的 寄存 器 资源 ， 以 提高 代码 的 执行 效率 。 
(3) 指令 调度 : 也 称 为 指令 排序 ， 就 是 确定 指令 的 执行 顺序 。 


以 上 三 个 话题 所 涉及 的 理论 与 技术 是 非常 丰富 的 ， 并 不 亚 于 编译 优化 技术 ， 因 此 ， 本 书 


pA 


分 日 


9.1 


一 一 :1 
言 
国 。 


得 不 考虑 如 何 使 用 整数 运算 指令 模拟 实 ] 


下 ， 


的 一 些 基 本 问题 ， 不 讨论 指令 调度 的 相关 技术 与 实现 。 
.2 ” 指 全 选择 


只 涉及 指令 选择 、 寄 存 器 


指令 选择 的 难 易 程度 主要 取决 于 目标 机 的 指令 集 ， 并 不 能 一 概 而 论 。 实 践 经 验证 明 ， 
CISC 指令 集 比 RISC 指令 集 更 有 利于 编译 器 实现 ， 这 是 因为 所 拥 
例如 ， 试 图 在 没有 浮 点 运算 指令 的 目标 机 上 实现 浮 点 数 运 算 ， 那 么 ， 编 译 器 设计 者 就 不 


设计 者 可 能 会 面临 新 的 问题 ， 那 就 是 如 何 合理 调配 资源 ， 使 得 目标 结果 相对 更 优 。 这 就 
意味 着 ， 可 以 达到 相同 功能 的 指令 或 指令 序列 可 能 并 不 唯一 时 ， 如 何 选择 一 个 更 优 的 方案 是 
值得 考虑 的 。 


的 资源 (指令 ) 相对 较 丰 


岗 。 当 然 ， 这 并 不 是 绝对 的 。 在 资源 相对 丰富 的 情况 


在 不 考虑 目标 程序 的 效率 的 情况 下 ， 指 令 选择 的 实现 是 非常 简单 的 。 只 需要 根据 代 的 
实际 语义 ， 为 每 种 IR 设计 一 个 相对 独立 的 目标 代码 片段 。 在 代码 生成 期 间 ， 按 照 民 与 目标 
代码 片段 的 一 一 对 应 关系 ， 将 了 及 转换 为 语义 等 价 的 目标 代码 片段 即 可 。 在 设计 目标 代码 片 
段 时 ， 由 于 并 不 考虑 各 句 IR 之 间 的 联系 ， 因 此 ， 这 种 处 理 方案 
这 种 方案 的 缺点 是 什么 呢 ? 笔者 引入 一 个 简单 的 例子 。 例 如 ，a、b、e 都 是 integer 型 的 


全 局 变量 ， 则 了 及 (ADD 4 a,b,c) 的 目标 代码 序列 如 下 : 


mov eax, a 
add eax, b 
mov Cc, eaX 


量 较 差 ， 极 易 产生 见 余 代码 。 例 如 ，IR 序列 如 下 : 
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(ADD 4 a,b,c) 
(ADD 4 c,b,a) 


那么 ， 得 到 的 目标 代码 序列 如 下 : 


movV eax, a 
add eax,b 
mov Cc, eaX 
mov eaX, C 
add eax,b 
mov a, eaX 


仔细 观察 这 段 代码 序列 ， 可 以 发 现 如 下 几 个 问题 : 


晶 


是 完全 可 以 保证 安全 的 。 那 


在 单机 情况 下 ， 这 种 翻译 方案 始终 是 安全 的 。 不 过 ， 这 种 代码 生成 方案 的 缺点 是 代码 质 


(1) 第 4 条 指令 是 见 余 的 。 当 第 3 条 指令 执行 完成 后 ，eax 寄存 器 中 存储 的 值 就 是 c 变 


量 的 值 ， 因 此 ， 
(2) 如 果 编 i 
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次 从 c 变量 内 取 值 是 见 余 的 。 


圣 器 可 以 确 


定 以 后 将 不 存在 c 的 引用 ， 则 第 3 条 指令 也 是 元 余 的 。 计 算 机 完 


全 可 以 依赖 eax 内 的 计算 结果 直接 参与 运算 ， 而 不 需要 将 其 值 映射 到 e 单元 中 。 


的 问题 。 不 过 ， 实 践 证 明 ， 有 时 这 


9.1.3 ”寄存 器 分 配 


寄存 器 是 目标 机 处 到 
的 。 除 了 可 以 作为 存储 层次 


[ 编 指令 的 行 数 ， 还 是 忆 
估 标 准 。 然 而 ， 对 于 某 些 和 
上 较 困 难 


评价 是 很 难 ; 


器 提供 


下. 二- 名 
最 高 等 级 


行 的 。 


里 论 上 讲 ， 评 价目 标 代码 质量 的 标准 是 显而易见 的 ， 即 执行 效率 与 代码 长 度 ， 这 是 指令 
选择 需要 关注 
确定 义 是 什么 ?到底 是 指 
们 更 希望 以 后 者 作为 记 
计 机 器 指令 的 大 小 是 上 
而 求 其 次 也 是 可 以 接受 的 。 


网 如 ， 代 码 长 度 的 准 


1 器 指令 的 字 节 数 ? 当然 ， 理 想 情况 下 ， 人 
肯 令 码 不 等 长 的 指令 系统 而 言 ， 试 图 准确 预 
的 。 有 时 ， 即 使 设计 者 竭尽 所 能 ， 也 是 徒劳 无 功 的 。 因 此 ， 退 


的 一 种 有 限 的 资源 ， 即 使 是 今天 ， 寄 存 器 依然 是 非常 稀缺 
的 通用 存储 资源 之 外 ， 更 重要 的 是 ， 寄 存 器 还 是 指令 


系统 的 一 个 重要 组 成 部 分 。 换 句 话说 ， 许 多 指令 对 某 些 寄存 器 的 使 用 都 是 有 特殊 限制 的 。 例 


如 ， 在 i386 系统 中 ，idiv 指令 的 运 


结果 必须 存放 在 eax、edx 


较 常见 的 ， 并 且 是 因 目 标 机 指令 系统 而 异 的 。 


(有 效 ) 数据 


数据 仅 局 限于 有 用 数 
数据 昵 ?” 这 就 要 依赖 数据 流 分 析 结 果 了 。 


那么 ， 寄 存 器 分 配 


即使 是 基于 


一 个 NP 完全 问题 。 然 而 


， 实 际 目标 机 情况 可 能 更 复杂 ， 因 


等 因素 对 寄存 器 使 用 的 限 


例 9-1 


(ADD 4abe) 
(ADD 4 c,e,b) 
(ADD 4 d,e,e) 


在 考虑 寄存 器 分 配 的 情况 下 ， 得 到 的 目标 代码 如 下 : 


的 目标 是 什么 呢 ? 简 而 言 之 ， 就 是 尽 可 能 


中 。 事 实 上， 这 


分 利 


情况 是 比 


j 寄 存 器 保存 有 用 


设法 使 有 用 数据 尽 可 能 长 久 地 保存 在 寄存 器 中 。 值 得 兴 


FE 意 的 是 ， 这 里 讨论 的 


居 ， 对 于 无 用 数据 而 言 ， 讨 论 寄 存 嚣 分配 是 无 意义 的 。 而 哪些 才 是 有 用 


理想 的 虚拟 机 讨论 ， 试 图 得 到 最 优 的 寄存 器 分 配方 案 也 是 非常 困难 的 ， 这 是 


央 。 下 面 举 一 个 简单 的 例子 ， 说 明 寄 存 器 分 配 的 原理 。 
假设 存在 eax,ebx 两 个 寄存 器 ， 设 计 寄 存 器 分 配方 案 ， 并 生成 目 


为 还 需 考 虑 指令 系统 、 操 作 系统 


标 代码 。 


究 一 直 是 人 们 所 关注 


mov eax,a :eax 保存 的 是 a 的 值 

add eax,b ;eax 保存 的 是 e 的 值 

mov ebx,eax :eax、ebx 保存 的 都 是 e 的 值 

add eax,C ;eax 保存 的 是 b 的 值 

mov b,eax ;如 果 以 后 不 使 用 ， 可 以 省 略 

add ebx,d ;eax 的 值 已 无 用 ，ebx 保存 的 是 e 的 值 

mov e,ebx ;如 果 以 后 不 使 用 ， 可 以 省 略 

无 论 是 经 典 编译 技术 还 是 现代 编译 技术 ， 关 于 寄存 器 分 配 策略 的 下 

的 。 当 然 ， 这 是 一 个 有 趣 且 复杂 的 问题 ， 有 兴趣 的 读者 可 以 参考 “ 鲸 书 ” 或 《The Compiler 
Design Handbook》。 
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9.2 目标 机 简介 


9.2.1 


机 结构 作 简单 介 
器 ， 


目标 机 结构 
9 代码 生成 是 一 种 与 目 


标 机 密切 相关 的 技术 ， 


通常 ，IA-32 体系 结构 指 的 就 是 从 Intel 386 到 


引进 了 一 套 
是 一 脉 相 承 的 。 


1. 操作 模式 


i386 处 理 
式 可 以 视 作 是 
保护 模式 


外 的 存储 单元 ; 
是 很 难 的 。 


正人 


' 处 理 


器 有 三 种 基本 操作 模式 ， 保护 模式 、 实 模式 、 
果 护 模式 下 的 一 种 特例 。 
(protected mode) 是 处 理 器 的 主要 状态 ， 尤 其 是 处 于 操作 系统 托管 之 下 的 应 用 
程序 。 在 保护 模式 下 ， 用 户 程序 被 赋予 了 独立 的 内 存 
种 情况 下 ， 


各 被 视 为 非法 的 。 在 这 


下 ， 设 计 者 所作 


涉及 该 模式 。 


上 台 已 


FBe 


此 后 大 多 数 扶 


是 De 32 位 机 系统 。 从 程序 员 及 编译 器 设计 者 的 角度 来 看 ， 除 了 + 
j 于 提升 多 媒体 处 理 的 高 性 


因此 ， 


三 


到 


笔者 有 必要 对 目标 
新 的 32 位 奔腾 4 处 理 


生 能 的 提高 及 


间 令 集 之 外 ，IA-32 的 体系 与 最 初 的 mtel 386 仍然 


巨 
旺 


系 统管 


模式 。 而 虚拟 8086 模 


区 域 ( 称 为 “ 段 ”)， 


j 户 程序 试图 访问 绝对 物理 


试图 访问 该 区 域 之 
地 址 或 硬件 接 


虚拟 8086 模式 (virtual-8086 mode) 是 为 了 解决 在 保护 模式 下 兼容 实 模式 程序 而 设计 
方案 。 早 期 的 程序 大 多 数 都 是 实 模式 的 ， 为 了 这 些 


程序 同 相 


的 
可 以 运行 在 保护 模式 之 


晶 


t 了 一 个 虚拟 8086 模式 。 严 格 地 说 ， 它 3 

实 模 式 (real-address mode) 也 称 为 “实地 址 模式 ”， 
器 或 硬件 设备 。 同 时 ， 在 实 模式 情况 下 ， 人 允许 程序 员 进 行 模 式 切换 等 特殊 应 用 。 
都 是 从 实 模式 引导 的 。 不 过 ， 


果 作 系统 会 将 


不 


A 下 


个 独立 的 模式 。 


= 


~ 


支持 实 模式 的 ， 而 之 后 的 Windows 操作 系统 都 不 支持 了 ， 即 使 是 运行 所 谓 的 “MS- 
DOS”， 也 只 是 虚拟 8086 模式 而 已 。 从 操作 系统 设计 角度 而 言 ， 实 模式 是 不 安全 的 ， 而 
难以 监控 。 


通常 ， 自 定义 系统 启动 过 程 等 特殊 应 用 


允许 用 户 程 


切换 到 保护 模式 。Windows 98 是 


直接 访问 与 控制 存储 
Intel 处 理 器 


系统 管理 模式 (system management mode) 也 称 为 “系统 管控 模式 ” 是 提供 给 操作 系统 
用 以 实现 电源 管理 及 系统 安全 等 功能 的 机 制 。 


台 忆 
能 会 
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一 般 来 说 ， 编 译 器 设计 者 及 程序 员 需 要 考虑 的 就 是 保护 模式 下 的 程序 设计 ， 实 模式 的 应 


用 涉及 较 少 。 


2. 基本 寄存 器 


在 i386 系统 中 ， 通 常 提供 了 8 个 通用 寄存 器 、6 个 段 寄存 器 、1 个 标志 寄存 器 
(EFLAGS) 和 1 个 指令 指针 (EIP)。 

通用 寄存 器 : 主要 用 于 进行 运算 和 数据 传递 。 在 实际 目标 机 中 ， 除 了 用 作 数 据 存储 之 外 ， 
有 时 ， 通 用 寄存 器 还 有 一 些 特殊 的 功能 与 应 用 限制 ， 这 是 编译 器 设计 者 需要 考虑 的 因素 。 

段 寄 存 器 : 主要 用 于 存储 段 ， 如 代码 段 、 数 据 段 、 栈 段 等 。 在 保护 模式 下 ， 段 寄存 器 的 
处 理 是 由 操作 系统 完成 的 ， 通 常 不 需要 程序 员 考 虑 。 

标志 寄存 器 : 存储 控制 CPU 操作 或 反映 CPU 状态 的 独立 二 进 制 位 。 
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F 意 改变 该 寄存 器 的 值 ， 可 能 导致 程序 


肯 令 指针 : 用 于 标识 下 一 条 待 执 行 指令 的 地 址 。 人 
执行 的 异常 ， 因 此 ， 这 个 寄存 器 的 值 通常 是 受 控 访问 的 。 


下 面 ， 笔 者 重 


esp、edi、esi。 


esp、edi、esi 只 可 以 ; 


不 过 ， 它 们 的 
以 eax 为 
8 位 称 为 ah，1 


是 不 可 以 独立 寻 址 的 。 这 种 交织 的 关系 同样 适 


点 介 和 


其 


eax、ebx、ecx、edx 都 可 
行 16 位 、32 位 寻 址 ， 

16 位 寻 址 仅 限 于 实 模式 下 。 

人 网， 其 低 16 位 称 为 ax，ax 的 高 

氏 8 位 称 为 al。 而 eax 的 高 16 位 


中 ， 


8 个 32 位 通用 寄存 器 。 它 们 分 别 是 eax、ebx、ecx、edx、ebp、 
行 8 位 、16 位 、32 位 寻 址 。 而 ebp、 


用 于 ebx、ecx、edx。 如 图 9-1 所 示 。 
最 后 ， 再 来 谈 谈 通 用 寄存 器 的 一 些 特殊 应 机 
(1) 在 乘法 和 除法 指令 中 ，eax、edx 被 自动 应 用 ， 赋 予 了 特定 的 作用 。 
(2) 在 字符 串 处 理 、 循 环 处 理 等 场合 中 ，ecx 作为 循环 计数 器 使 用 。 
(3) esp 是 寻 址 堆栈 的 栈 顶 指针 寄存 器 ， 通 常 不 能 另 作 他 用 。 


(4) 在 字符 串 块 数据 传输 时 ，esi、edi 通常 作为 源 和 
(5) 在 程序 设计 中 ，ebp 经 常用 于 处 理 


目标 块 的 指针 寄存 器 。 


第 8 章 中 已 作 了 详 


阐述 。 


9.2.2 浮 点 处 理 单元 


IA-32 结构 的 处 理 器 都 提供 了 浮 点 处 理 和 


立 于 主 处 理 器 而 存在 的 ， 通 稼 


高 ，FPU 
天 ， 从 应 用 的 角度 来 说 ， 
此 ， 关 于 FPU 

FPU 共有 


元 (FPU)。 在 i486 之 前 的 处 理 器 中 ，FPU 是 独 


的 原理 及 应 用， 国 内 
8 个 80 位 的 浮 点 数据 


编 语言 教材 4 


次 为 “ 协 处 理 器 ”。 在 i486 之 后 ， 由 于 主 处 
也 被 集成 到 了 主 处理 器 中 。 不 过 ， 这 对 于 程序 员 似乎 是 透明 的 。 事 实 上 ， 直 到 今 
FPU 仍然 是 以 一 个 逻辑 整体 的 形式 存在 的 。 由 


函数 参数 和 局 部 变量 的 寻 址 。 关 于 ebp 的 应 用 ， 


器 运算 性 


能 的 提 


民 少 涉及 。 在 此 ， 笔 者 有 必要 稍 
R7。 不 过 ， 从 程序 


寄存 器 ， 分 别 命名 为 RO、R1、…、 


于 8086 没有 FPU， 因 


作 详 解 。 


员 的 角度 来 看 ， 这 8 个 寄存 器 的 逻辑 标识 为 ST(0)、ST(1)、ST(2)、STG3)、ST(4)、ST(5)、 
ST(6)、ST(7)。 两 种 命名 没有 必然 的 联系 ， 这 是 非常 奇怪 的 ， 笔 者 稍 后 解释 。 当 然 ，FPU 还 


3 


有 独立 的 指令 


指针 、 数 据 指针 、 标 记 寄 存 器 、 控 和 


wy 


1. 浮 点 数据 寄存 器 


栈 的 
栈 顶 寄存 器 ， 


TOP 栈 顶 可 能 是 任意 的 ， 


在 i386 处 理 器 结构 中 ，FPU 是 一 个 模拟 的 栈 式 
机 。 与 通用 寄存 器 不 同 ， 浮 点 数据 寄存 器 是 以 循环 堆 
E 式 组 织 的 ， 如 


图 9-2 所 示 。 图 中 TOP 指向 的 是 
它 占用 了 状态 寄存 器 中 的 3 位 。 由 于 
因此 ， 要 直接 访问 TOP 指向 


的 物理 寄存 器 训 


必须 经 过 变 址 寻 址 ， 同 时 ， 还 要 考虑 


偏 移 的 取 横 处理 。 为 了 便于 程序 员 访问 ， 处 理 器 将 根 


据 TOP 的 当 育 


和 位 置 ， 为 每 个 寄存 器 分 配 一 个 别名 。 将 


ST(5) 
ST(4) 
ST(3) 
ST(2) 
ST(1) 
ST(0) 
ST(7) 
ST(6) 


1 
\ 
| 
\ 
\ 
\ 


TOP 


9-2 ”FPU 寄存 器 堆 
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[ 


TOP 指向 的 栈 顶 寄存 器 命名 为 ST(0)， 然 后 ， 沿 栈 顶 向 栈 底 的 方向 ， 依 次 标识 为 ST(D 一 
ST(7)。 随 着 TOP 的 变化 ， 处 理 器 将 自动 改变 寄存 器 的 别名 。 

2. 浮 点 运算 的 过 程 

众所周知 ， 浮 点 数 通常 是 依据 EEE 754 格式 存储 的 。 关 于 IEEE 754 格式 的 规范 ， 笔 者 
就 不 再 详 述 了 。 浮 点 运算 的 过 程 大 致 分 为 三 步 : 

1) 将 操作 数 装 入 浮 点 数据 寄存 器 堆栈 。 

2) 执行 浮 点 运算 指令 。 根 据 指令 所 需 的 操作 数 个 数 ， 从 堆栈 获取 操作 数 ， 并 将 运算 结 
果 再 次 压 入 堆栈 。 

3) 将 运算 结果 存储 至 目标 单元 。 
值得 注意 的 是 ， 在 IA-32 结构 中 ，FPU 与 主 CPU 之 间 的 操作 数 传递 只 能 借助 内 存 进 
行 ， 而 不 能 直接 从 主 CPU 的 寄存 器 传递 给 FPU。 

例 9-2 浮 点 运算 实例 ， 编 程 实现 计算 表达 式 (8.12 x 2.3) + (12.3 x 9.2)。 


.data 

a dd 8.12 

b dd 2.3 

c dd 12.3 

ddd 9.2 

edd? 

.code 

main proc 
finit ;初始 化 FPU， 这 不 是 必需 的 
fld ;将 8.12 压 入 浮 点 数据 寄存 器 堆栈 ， 即 ST(0)=8.12 
fmul ;ST(0)=ST(0) * 2.3=18.676 
fld ;将 12.3 压 入 浮 点 数据 寄存 器 堆栈 ， 即 ST(0)=12.3，ST(1)=18.676 
fmul ;ST(0)=ST(0) * 9.2=113.16 
fadd :ST(0)=ST(0)+ST(1)=113.16+18.676=131.836 
fstp e ;将 ST(O) 的 值 存 入 e 
exit 


BB 人 


main endp 
end main 


3. FPU 指令 
表 9-1 是 数据 传递 操作 指令 列表 。 


表 9-1 数据 传递 操作 指令 列表 


指令 格式 指令 含义 执行 的 操作 
FLD src 装 入 实数 到 st(0) st(0) <- src (mem32/mem64/mem80) 
FILD src 装 入 整数 到 st(0) st(0) <- src (mem16/mem32/mem64) 
FBLD src 装 入 BCD 数 到 st(0) st(0) <- src (mem80) 
FLDZ 将 0.0 装 入 st(0) st(0) <- 0.0 
FLDI1 将 1.0 装 入 st(0) st(0) <- 1.0 
FLDPI 将 pi 装 入 st(0) st(0) <- ?(ie, pi) 
FLDL2T 将 log2(10) 装 入 st(0) st(0) <- log2(10) 
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执行 的 操作 


FLDL2E 将 log2(e) 装 入 st(0) st(0) <- log2(e) 

FLDLG2 将 log10(2) 装 入 st(0) st(0) <- log10(2) 

FLDLN2 将 loge(2) 装 入 st(0) st(0) <- loge(2) 

FST dest 保存 实数 st(0) 到 | dest dest <- st(0) (mem32/mem64) 

FSTP dest dest <- st(0) (mem32/mem64/mem80); 然后 再 执行 一 次 出 栈 操作 
FIST dest 将 st(0) 以 整数 保存 到 dest dest <- st(0) (mem32/mem64) 

FISTP dest dest <- st(0) (mem16/mem32/mem64); 然后 再 执行 一 次 出 栈 操作 
FBST dest 将 st(0) 以 BCD 保存 到 dest dest <- st(0) (mem80) 

FBSTP dest dest<- st(0) (mem80); 然后 再 执行 一 次 出 栈 操作 


表 9-2 是 数据 比较 指令 列表 。 


表 9-2 数据 比较 指令 列表 


指令 格式 指令 含义 执行 的 操作 
FCOM 实数 比较 将 标志 位 设置 为 st(0) - st(1) 的 结果 标志 位 
FCOM op 实数 比较 将 标志 位 设置 为 st(0) - op (mem32/mem64) 的 结果 标志 位 
FICOM op 和 整数 比较 将 Flags 值 设 置 为 st(0)-op 的 结果 op (mem16/mem32) 
FICOMP op 和 整数 比较 将 st(0) 和 op 比较 op(mem16/mem32) 后 ; 再 执行 一 次 出 栈 操作 
FTST 零 检 测 将 st(0) 和 0.0 比较 
FUCOM st(i) 七 较 st(0) 和 st(i) [486] 
FUCOMP st(i) 七 较 st(0) 和 stQ)， 并 且 执 行 一 次 出 栈 操作 
FUCOMPP st(i) 七 较 st(0) 和 st(i)， 并 且 执 行 两 次 出 栈 操作 
FXAM 测试 st(0)， 如 正 值 、 负 值 等 


表 9-3 是 数据 运算 指令 列表 。 


表 9-3 数据 运算 指令 列表 


指令 格式 指令 含义 执行 的 操作 
加 法 
FADD 加 实数 st(0) <-st(0) + st(1) 
FADD src st(0) <-st(0) + src (mem32/mem64) 
FADD st(i),st st(i) <- st(i) + st(0) 
FADDP st(i),st st(i) <- st(Qi) + st(0); 然后 执行 一 次 出 栈 操作 
FIADD src 加 上 一 个 整数 st(0) <-st(0) + src (mem16/mem32) 
减法 
FSUB 减 去 一 个 实数 st(0) <- st(0) - st(1) 
FSUB src st(0) <-st(0) - src (reg/mem) 
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Cs) 


执行 的 操作 


FSUB stQi),st 


st(i) <-st(i) - st(O) 


FSUBP st(i),st st(i) <-st(i) - st(0)， 然 后 执行 一 次 出 栈 操作 
FSUBR st(i),st 个 实数 来 减 st(0) <- st(i) - st(0) 

FSUBRP st(i),st st(0) <- st(i) - st(0)， 然 后 执行 一 次 出 栈 操作 
FISUB src 减 去 一 个 整数 st(0) <- st(0) - src (mem16/mem32) 

FISUBR src 个 整数 来 减 st(0) <- src - st(0) (mem16/mem32) 

乘法 

FMUL 乘 以 一 个 实数 st(0) <- st(0) * st(1) 

FMUL st(i) st(0) <- st(0) * st(i) 

FMUL st(i),st st(i) <- st(0) * st(i) 

FMULP st(i),st st(i) <- st(0) * st()， 然 后 执行 一 次 出 栈 操作 
FIMUL src 乘 以 一 个 整数 st(0) <- st(0) * src (mem16/mmem32) 

除法 

FDIV 除 以 一 个 实数 st(0) <-st(0) /st(1) 

FDIV st(i) st(0) <- st(0) /Gi) 

FDIV st(i),st st(i) <-st(0) /st(i) 

FDIVP st(i),st st(i) <-st(0) /st(i)， 然 后 执行 一 次 出 栈 操作 
FIDIV src 除 以 一 个 整数 st(0) <- st(0) /src (mem16/mem32) 

FDIVR st(i),st 实数 除 st(0) <- st(i) /st(0) 

FDIVRP st(i),st FDIVRP st(i),st 

FIDIVR src 整数 除 st(0) <- src /st(0) (mem16/mem32) 

FSQRT 平方 根 st(0) <- sqrt st(0) 

FSCALE 控 2 的 st(1) 次 方 缩放 st (0) st(0) <- st(0)*(2^ST(1)) 

FXTRACT 人 ks st(0) <- st(0) 的 窜 ; st(0) <- st(0) 的 有 效 数字 
FPREM 余数 st(0) <-st(0) MOD st(1) 

FPREMI 余数 (IEEE) ， 同 FPREM， 但 是 使 用 IEEE 标准 [486] 

FRNDINT 区 整 (四舍五入 ) st(0) <- INT( st(0) ); depends on RC flag 
FABS 求 绝 对 值 st(0) <- ABS( st(0) ); removes sign 

FCHS 改变 符号 位 ( 求 负数 ) st(0) <-st(0) 

F2XMI1 计算 2*-1 st(0) <- (2 ^ st(0)—1 

FYL2X 计算 Y * log,(X) st(0) 为 Y;， st(D) 为 X， 将 st(0) 和 st(1) 变 为 st(0)*log2( st(1)) 的 值 
FCOS 余弦 函数 Cos st(0) <- COS( st(0) ) 

FPTAN 正切 函数 tan st(0) <- TAN( st(0) ) 

FPATAN 反正 切 函数 arctan st(0) <- ATAN( st(0) ) 

FSIN 正弦 函数 sin st(0) <- SIN( st(0) ) 

FSINCOS sincos 函数 

FYL2XP1 计算 Y * logz(CX+D) st(0) 为 Y;， st(D) 为 X， 将 st(0) 和 st(1) 变 为 st(0)*log2(st(1)+1) 的 值 
处 理 器 控制 指令 
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( 续 ) 
指令 格式 指令 含义 执行 的 操作 
FINIT 初始 化 FPU 
FSTSW AX 保存 状态 字 的 值 到 AX AX<- MSW 
FSTSW dest 保存 状态 字 的 值 到 dest dest<-MSW (mem16) 
FLDCW src 从 src 装 入 FPU 的 控制 字 FPU CW <-src (mem16) 
FSTCW dest 将 FPU 的 控制 字 保存 到 dest | dest<- FPU CW 
FCLEX 清除 异常 
FSTENV dest 保存 环境 到 内 存 地 址 dest 处 保存 状态 字 、 控 制 字 、 标 志 字 和 异常 指针 的 值 
FLDENY src 从 内 存 地 址 src 处 装 入 保存 的 环境 
FSAVE dest 保存 FPU 的 状态 到 dest 指向 的 94 个 字 节 的 存储 单元 中 
FRSTOR src 从 src 处 装 入 由 FSAVE 保存 的 FPU 状态 
FINCSTP 增加 FPU 的 栈 指 针 值 st(6) <-st(5); st(5) <-st(4),...,st(0) <-? 
FDECSTP 减少 FPU 的 栈 指 针 值 st(0) <-st(1); st(1) <-st(2),...,st(7) <-? 
FFREE st(i) 标志 寄存 器 st() 未 被 使 
FNOP 空 操作 ， 等 同 于 CPU 的 nop | st(0) <-st(0) 
WAIT/FWAIT 同步 FPU 与 CPU: 停止 CPU 的 运行 ， 直 到 FPU 完成 当前 操作 码 
FXCH 交换 指令 ， 交 换 st(0) 和 st(1) 的 值 


9.2.3 ”操作 数 寻 址 方式 
操作 数 寻 址 方式 


直 是 汇编 语言 程序 设计 的 一 个 重要 话题 。i386 系统 提供 了 丰富 的 寻 址 


方式 ， 如 立即 数 寻 址 、 直 接 内 存 寻 址 、 寄 存 器 寻 址 、 间 接 寻 址 、 变 址 寻 址 。 


1. 立即 数 寻 址 


立即 数 寻 址 的 操作 数 就 包含 在 指令 中 ， 它 是 指令 码 的 一 部 分 。 值 得 注意 的 是 ， 在 处 理 多 


字 节 立即 数 寻 址 时 ， 高 字 节 
储 单元 内 。 在 ; 


令 的 执行 结果 如 


图 9-3 所 示 。 


2. 直接 内 存 寻 址 
直接 内 存 寻 址 上 


意 ， 这 里 


WE: 
* 


单元 内 的 数据 存放 到 eax 中 。 
3. 寄存 器 寻 址 


24~31 位 16~23 位 


的 地 址 并 不 是 真正 的 绝对 地 址 ， 实 际 上 ， 只 是 数据 段 内 
基地 址 则 存储 于 ds 寄存 器 中 。 例 如 ，mov eax, [1234h] 指 令 的 含义 是 将 逻辑 


的 数值 存放 在 高 地 址 存储 单元 ， 而 低 字 节 的 数值 存储 在 低地 址 存 
[ 编 语言 程序 设计 中 ， 通 常 称 之 为 “小 尾 顺序 ”例如 ，mov eax, 10203040h 指 


9-3 ”多 字 节 立即 数 寻 址 示例 


操作 数 存 储 于 内 存 中 ， 指 令 中 包含 的 是 该 操作 数 所 在 存储 单元 的 地 址 。 


高 移 地 址 。 而 数据 段 的 
地 址 1234h 存储 


的 1 


寄存 器 寻 址 即 操作 数 存 储 于 寄存 器 内 ， 指 令 中 包含 的 是 该 操作 数 所 在 寄存 器 号 。 寄 存 器 
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寻 址 的 速度 相对 于 直接 内 存 寻 址 快 得 多 ， 因 此 ， 这 也 是 寄存 器 分 配 的 初 囊 。 例 如 ，mov eax,， 
ebx 的 含义 是 将 ebx 内 的 数据 存储 到 eax 中 。 
， 间接 寻 址 
人 EN 内 存 中 ， 而 操作 数 的 地 址 存放 在 一 个 32 位 通用 寄存 器 中 。 
在 汇编 语言 中 ， 间 接 寻 址 就 是 使 用 方 括号 括 起 来 的 通用 寄存 器 名 表示 。 例 如 ，mov eax, [ebx]。 
在 实 模式 下 ， 只 能 用 si、di、bx、bp 作为 间接 寻 址 寄存 器 。 其 中 ，bp 常用 来 寻 址 堆栈 
段 ， 而 其 他 三 个 都 是 寻 址 数据 段 的 。 
在 保护 模式 下 ， 人 允许 使 用 任意 32 位 通用 寄存 器 作为 间接 寻 址 寄存 器 。 不 过 ， 间 接 寻 址 
的 范围 仅 限 程序 所 属 的 数据 段 。 当 寻 址 超出 该 区 域 ， 则 会 产生 保护 故障 。 因 此 ， 在 Windows 
环境 下 的 高 级 语言 中 ， 对 时 指针、 空 指针 的 寻 址 可 能 是 会 导致 异常 的 。 然 而 ， 在 实 模 式 编程 
中 ， 处 理 器 是 不 会 关注 此 类 异常 的 。 
5. 变 址 寻 址 
变 址 寻 址 即将 一 个 常量 的 值 与 一 个 寄存 器 的 值 相 加 ， 产 生 一 个 有 效 地 址 ， 再 根据 这 个 有 
效 地 址 获取 实际 数据 值 。 这 种 寻 址 方式 与 高 级 语言 的 一 维 数组 类 似 。 这 里 的 常量 通常 是 一 个 数 
据 块 的 首 地 址 。 而 寄存 器 的 值 是 一 个 相对 于 首 地 址 的 偏 移 ， 也 称 为 “指针 寄存 器 ”。 例 如 : 


.data 

array dd 10h, 11h, 12h 
.Code 

mov ebx, 1 


mov eax, [array+ebx] ;在 masm 中 ， 也 可 以 写成 mov eax, array[ebx] 


array 是 数组 的 基 址 ，ebx 中 的 值 是 相对 于 array 的 偏 移 。 执 行 完 该 指令 后 ，eax 的 值 为 11h。 
注意 ， 在 实 模 式 下 ， 只 能 用 si、di、bx、bp 作为 指针 寄存 器 ， 与 间接 寻 址 类 似 ，bp 是 用 于 推 
栈 段 寻 址 的 。 值 得 注意 的 是 ，mov eax，[array+1] 指 令 并 不 是 变 址 寻 址 ， 而 是 直接 内 存 寻 址 ， 
应 该 加 以 区 别 。 两 者 的 区 别 在 于 是 否 可 以 在 汇编 阶段 计算 得 到 操作 数 的 地 址 。 变 址 寻 址 是 不 
可 以 计算 得 到 的 ， 而 直接 内 存 寻 址 是 可 以 计算 得 到 的 。 


9.2.4 ”ptr 操作 符 


ptr 操作 符 可 以 用 于 重 载 操作 数 的 默认 尺寸 ， 这 在 32 位 汇编 程序 设计 中 是 非常 有 用 的 。 
例如 ， 用 户 书 写 mov al, aa 指令 的 本 意 就 是 将 aa 的 低 8 位 送 al 寄存 器 。 如 果 aa 是 一 个 2 字 
节 的 变量 时 ， 由 于 mov 指令 左右 操作 数 大 小 不 匹配 ， 这 样 的 指令 是 非法 的 。 同 样 ，mov eax， 
aa 指令 也 是 不 允许 的 。 在 这 种 情况 下 ， 需 要 将 指令 改写 成 如 下 形式 : 


mov al, byte ptr aa 


mov eax, dword ptr aa 


注意 ，ptr 必须 和 汇编 器 的 标准 数据 类 型 联合 使 用 ， 可 以 是 byte、sbyte、word、sword、 
dword、sdword、fword、qword、tbyte。 在 编译 器 设计 中 ，ptr 操作 符 的 应 用 是 非常 广泛 的 ， 
它 可 以 保证 不 同 大 小 操作 数 之 间 的 运算 是 合法 的 。 

不 过 ， 值 得 注意 的 是 ， 在 使 用 ptr 操作 符 将 较 小 操作 数 向 较 大 的 操作 数 转换 时 ， 由 于 
“小 尾 顺 序 ” 原 则 ， 会 导致 非 预 期 结果 。 例 如 : 


(Hl 
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9.2.5 


最 后 ， 笔 者 简单 介 
程序 为 例 。 一 个 完整 的 汇编 程 


段 声明 


9.3 ”构造 代码 生成 器 


9.3.1 


所 谓 “ 自 动 代码 生成 ” 指 的 是 编译 器 设计 者 将 与 目标 机 指令 相关 的 翻译 规则 抽象 成 外 部 
习惯 上 ， 将 该 文件 称 为 “模式 文件 ”)， 然 后 ， 按 照 IR 的 实际 形式 ， 由 代码 生成 器 ; 
匹配 ， 检 索 合适 的 翻译 规则 ， 用 于 生成 目标 代码 。 应 用 模式 文件 实现 目标 代码 生成 器 


文件 ( 
行 模式 


.data 
aa dw 1234h, 5678h 


目标 代码 生成 第 9 党 


bb db 12h, 34h, 56h, 78h 


.Code 


mov eax, dword ptr aa 


Imov ebx, dword ptr bb 


;eax 的 结果 为 56781234h 
;ebx 的 结果 为 78563412h 


一 个 完整 的 汇编 程序 


一 下 完整 的 


。 下 面 是 一 个 完整 的 汇编 程序 实例 。 
例 9-3 实现 三 个 整数 的 加 减 运算 。 


.686P 
.model flat,stdcall 
include PasLib.inc 
.data 
a dd 3000h 
b dd 2000h 
c dd 1000h 
ddd? 
.Code 
aa proc 
aa endp 
start: 
main proc 
mov eax,a 
sub eax,b 
add eax,c 
mov d,eax 
main endp 


end main 


;指出 该 程序 要 求 的 最 低 CPU。 

;指示 编译 器 为 保护 模式 程序 生成 的 代码 ，stdcall 是 调用 约定 。 
;所 需 包 含 文件 的 列表 ， 与 C 语 言 #include” 的 功能 类 似 。 

;数据 段 声明 。 

;声明 变量 a， 初 值 为 3000h。 

;声明 变量 b， 初 值 为 2000h。 

;声明 变量 c， 初 值 为 1000h。 

;声明 变量 d， 初 值 未 定 。 使 用 “?” 表 示 无 需 初 始 化 该 单元 。 


;.code 伪 指 令 用 来 标记 代码 段 声 明 的 开始 ， 语 句 必须 置 于 其 后 。 


;proc 伪 指令 标识 aa 过 程 开始 。 这 里 的 aa 是 一 个 空 过 程 。 
;这 里 可 以 插入 指令 。 

:endp 伪 指 令 标记 aa 过 程 声 明 已 结束 。 

;start 标号 是 具有 特殊 意义 的 ， 程 序 将 从 start 开始 执行 。 


;main 过 程 开 始 。 但 并 不 限制 必须 使 用 “main” 作为 启动 过 程 。 


:将 a 的 值 装载 到 eax 中。 

;计算 eax-b， 结 果 存 于 eax 中 。 

;计算 eaxtc， 结 果 存 于 eax 中 。 

;将 eax 的 运算 结果 存储 到 d 中 。 

;endp 伪 指 令 标记 main 过程 声 明 已 结束 。 


;end 伪 指 令 标明 该 行 是 程序 的 最 木 行 ， 其 后 必须 为 启动 过 程 名 ， 


自动 代码 生成 器 基础 


编程 序 的 基本 组 成 结构 ， 这 里 ， 以 保护 模式 下 的 ; 


序 通常 包括 以 下 几 个 部 分 : 文件 包含 声明 、 数 据 段 声明 、 代 码 


[ 编 


的 优点 就 是 便于 修改 、 维 护 与 移植 。 虽 然 这 种 目标 代码 生成 器 的 设计 较 手 工 编码 实现 的 生成 
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器 稍 复杂 ， 但 它 的 优点 是 后 者 无 法 比拟 的 。 


本 质 上 讲 ，IR 对 生成 正确 的 代码 并 没有 决定 性 的 影响 ， 但 它 却 是 影响 选择 代码 生成 方 
法 的 主要 因素 。 针 对 DAG、 树 、 四 元 式 、 三 元 式 、 前 级 波兰 代码 等 ， 寻 找 合适 的 代码 生成 


方法 是 不 容易 的 。 其 中 ， 最 著名 的 自动 代码 生成 方法 是 Graham-Glanville 方法 ， 其 基本 思想 


是 运用 形式 化 的 规则 来 描述 目标 机 器 的 操作 ， 并 依据 相应 的 指令 模板 进行 代码 生成 。 此 过 程 


与 构造 上 下 文 无 关 文法 分 析 器 是 类 似 的 。 


Graham-Glanville 代码 生成 器 由 三 部 分 组 成 ， 即 中 间 语 言 转换 、 模 式 匹 配器 和 代码 生 


成 。 代 码 生成 的 过 程 可 为 三 步 : 
1) 将 IR 转换 为 适合 匹配 的 模式 串 形式 。 
2) 根据 模式 串 匹 配 指 令 模 板 库 ， 确 定 指令 序列 。 
3) 根据 指令 序列 生成 相应 的 目标 代码 。 


注意 ，Graham-Glanville 代码 生成 器 的 默认 输入 IR 是 前 级 波兰 代码 ， 这 是 早期 代码 生成 
器 广泛 应 用 的 一 种 IR 形式 。 不 可 否认 的 是 ， 一 些 经 典 的 自动 代码 生成 器 更 热衷 基于 树 、 


DAG、 前 绥 波 兰 代 码 等 形式 的 IR 实现 ， 而 不 是 传统 的 三 地 址 代码 。 这 种 设计 的 主要 优点 是 


可 以 最 大 程度 上 减少 代码 生成 器 对 IR 形式 的 要 求 。 众 所 周知 ，A 


ST、DAG 或 其 他 变 体 形式 


是 较 高 级 的 了 及， 实际 上 ，Graham-Glanville 算法 第 1 步 关 注 的 就 是 将 高 级 形式 转换 为 LIR 形 


式 ， 然 后 ， 再 从 LIR 形式 中 分 析 得 到 模式 串 。 如 果 输 入 的 了 有 下 是 MIR 或 LIR， 那 么 ， 算 法 可 
以 最 大 程度 上 适应 IR 的 变化 。 本 书 将 讨论 基于 三 地 址 代码 的 自动 代码 生成 器 的 实现 ， 这 种 


实现 方法 更 多 关注 的 是 算法 的 第 2、3 步 。 
9.3.2 ”指令 模板 


在 经 典 编译 技术 中 ， 指 令 模板 的 实现 技术 方式 主要 有 以 下 两 种 : 
(1) 使 用 自动 代码 生成 器 的 生成 器 来 实现 基于 指令 模板 的 代码 生成 。 这 种 方法 与 语法 分 


析 的 生成 器 yacc 比较 类 似 。 根 据 生成 器 规则 文件 的 要 求 ， 逐 一 书写 模板 规则 ， 再 由 自动 代 


码 生成 器 的 生成 器 将 模板 规则 文件 转换 为 相应 的 C/C++ 源 代码 。 


这 就 是 代码 生成 器 的 源 代 


码 ， 只 需 将 其 加 入 编译 器 项 目 重新 编译 即 可 。 最 著名 的 自动 代码 生成 器 的 生成 器 称 为 


“lburg”， 它 习惯 上 将 规则 文件 称 为 “紧缩 规范 ”。 


(2) 手工 编码 实现 指令 模板 。 这 种 方法 主要 是 在 代码 生成 阶段 从 外 部 文件 动态 读 入 指令 


模板 库 。 相 比 前 者 ， 这 种 方式 的 实现 代价 可 能 大 一 些 ， 同 时 ， 上 由 


于 必须 借助 外 部 ID， 代码 


生成 的 效率 可 能 低 一 些 。 然 而 ， 这 种 方式 较 灵活 ， 尤 其 在 指令 选择 方案 的 灵活 变化 方面 是 有 


优势 的 。 由 于 Neo Pascal 是 基于 这 种 方法 实现 的 ， 因 此 ， 本 书 将 详细 讨论 其 设计 与 实现 的 旨 


人 


下 面 ， 笔 者 就 来 介绍 Neo Pascal 的 指令 模板 形式 。 


由 于 NPIR 是 一 种 较 低 级 的 MIR 形式 ， 因 此 ， 给 指令 模板 的 实现 带 来 了 便利 。Neo 


Pascal 并 不 需要 考虑 AST 或 DAG 到 LIR 的 转换 。 在 指令 模板 的 设计 中 ， 最 复杂 的 描述 可 能 
就 是 操作 数 的 来 源 ， 不 同 的 指令 系统 对 此 的 限制 是 非常 奇怪 的 。 例 如 ， 在 i386 中 ， 浮 点 指 
令 规定 数据 一 定 是 来 自 内 存 的 ， 而 主 CPU 的 大 多 数 指令 最 多 只 允许 存在 一 个 内 存 操作 数 。 


类 似 的 情况 在 指令 模板 的 设计 中 必须 予以 体现 ， 否 则 无 法 保证 代码 生成 的 正确 | 


Ts 


生 。 设 计 指 令 


模板 是 一 项 极 富 有 挑战 性 的 工作 ， 而 设计 出 经 典 的 指令 模板 就 更 困难 了 ， 即 使 是 经 典 的 
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Graham-Glanville 方法 也 没有 太 多 的 建议 。 下 面 ， 就 来 看 看 Neo Pascal 指 


{ 
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ADD 4 %V.1% %V.2% WV.3% 


@1,4 
@2,4 
@3,4 


add %V.1%,dword ptr %V.2% 


} 


大 括号 : 


模式 串 : 指 
器 根据 IR 的 实现 情 
板 库 中 检索 。 这 个 过 程 与 数据 库 检 索 比 较 类 似 ， 而 这 

操作 数 来 源 标记 : ADD 4 一 


作 数 的 来 源 。 其 中 ， 逗 号 之 后 的 数值 是 用 于 标识 操作 数 的 字 


一 个 完整 的 指令 
令 模 板 的 第 


， 昌 


Se 


| 一 


模板 必须 用 大 括号 提 
一 行 是 模板 的 模式 串 ， 


5 起 来 ， 


令 模 板 的 实例 。 


以 便 代 码 生 成 器 解析 。 
j 于 匹配 模板 。 在 代码 生成 过 程 中 ， 


生成 


以 分 析 得 到 类 似 的 模式 串 。 然 后 ， 根 据 得 
里 的 关键 字 


到 的 模式 串 ， 在 指 
就 是 模式 串 。 


令 模 


< 有 3 个 操作 数 。 


节 数 。 而 逗号 之 冯 


以 “@” 开 头 的 行文 本 正 是 用 于 标识 操 


前 的 数值 则 月 


时 


标识 操作 数 的 来 源 ， 详细 的 说 明 见 表 9-4。 
指令 序列 : 其 中 ， 除 了 “%V.1%”、%V.2% 等 之 外 的 文本 将 在 目标 代码 中 输出 ， 而 
“%V.1%” 等 标记 将 在 代码 生成 中 被 替换 。 
表 9-4 指令 模板 的 操作 数 来 源 标 记 
操作 数 | 标 记 值 说 明 
0 直接 内 存 寻 址 。 如 果 操 作 数 存在 于 寄存 器 中 ， 则 必须 将 其 存 到 内 存 中 ， 然 后 再 从 内 存 直 接 取 值 
a 寄存 器 寻 址 。 如 果 操 作 数 不 存在 于 寄存 器 中 ， 则 必须 先 将 其 传输 至 寄存 器 ， 然 后 再 从 该 寄存 器 
操作 数 1 1 取 值 
2 优先 寄存 器 寻 址 。 如 果 操 作 数 存在 于 寄存 器 中 ， 则 优先 从 寄存 器 取 值 ， 和 否则 从 内 存 取 值 
0 直接 内 存 寻 址 。 如 果 操 作 数 存 在 于 寄存 器 中 ， 则 必须 将 其 存 到 内 存 中 ， 然 后 再 从 内 存 直 接 取 值 
加 寄存 器 寻 址 。 如 果 操 作 数 不 存在 于 寄存 器 中 ， 则 必须 先 将 其 传输 至 寄存 器 ， 然 后 再 从 该 寄存 器 
操作 数 2 1 取 值 
2 优先 寄存 器 寻 址 。 如 果 操 作 数 存在 于 寄存 器 中 ， 优 先 从 寄存 器 取 值 ， 和 否则 从 内 存 取 值 
0 内 存 寻 址 。 将 运算 结果 回 存 到 内 存 中 
1 申请 一 个 寄存 器 ， 用 于 存储 运算 结果 
操作 数 3 — - 
2 将 运算 结果 存放 在 操作 数 2 的 寄存 器 中 
3 将 运算 结果 存放 在 操作 数 1 的 寄存 器 中 
下 面 再 举 一 个 指令 模板 的 例子 。 
{ 
EQU 1 %V.1% %V.2% WV.3% 
@1,1 
@2,1 
@labh,l 
#ah, 


cmp %V.1%,byte ptr %V.29%0 


lahf 
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and ah,40h 
shr ah,6 
} 


这 是 一 个 比较 特殊 的 应 用 。 其 中 ，lahf 指令 的 功能 是 将 标志 寄存 器 值 存 入 ah 寄存 器 
中 ， 因 此 ， 并 不 需要 重新 申请 一 个 寄存 器 用 于 存储 运算 结果 。 其 中 ,“@1lah,1” 表 示 该 操作 
数 所 属 的 寄存 器 是 特 指 的 。 在 本 例 中 ， 即 表示 存储 操作 数 3 的 寄存 器 只 能 是 ah， 而 不 需要 也 
不 能 申请 其 他 寄存 器 。 而 本 例 中 的 “#ah” 则 表示 该 指令 模板 对 ah 寄存 器 有 特殊 需要 ， 
此 ， 在 应 用 该 指令 模板 生成 代码 时 ， 不 能 将 ah 寄存 器 挪 作 他 用 。 
最 后 ， 笔 者 通过 一 个 实例 来 解释 基于 指令 模板 的 代码 生成 过 程 。 
例 9-4 基于 指令 模板 的 代码 生成 。 
IR: ADD 4 AB,C 
ADD 4 CAB 


党 


处 理 (ADD 4 A,B,C): 

1) 根据 ADD 4 的 指令 模板 ， 操 作 数 1 必须 为 寄存 器 寻 址 ， 由 于 变量 A 没有 绑 定 任何 
寄存 器 ， 因 此 ， 代 码 生成 器 必须 为 A 绑 定 一 个 4 字 节 的 寄存 器 〈 这 里 ， 假 设 为 eax)。 并 生 
成 指令 将 A 的 值 装 入 eax 中 。 

指令 : mov eax,A 


2) 操作 数 2 是 优先 寄存 器 寻 址 。B 变量 不 存在 绑 定 寄存 器 ， 因 此 ， 只 需 从 内 存 寻 址 


即 可 


3) 处 理 模板 中 的 指令 序列 ， 将 文本 中 的 “%V.1%”“%V.2%” 蔡 换 为 实际 的 操作 数 。 
指令 : add eax,dword ptr [B] 

4) 根据 ADD 4 的 指令 模板 ， 运 算 结 果 存 放 在 操作 数 1 所 属 的 寄存 器 中 ， 至 此 ，eax 寄 
存 器 绑 定 的 变量 是 C， 而 不 是 A。 

处 理 (ADD 4 C,A,B): 

5) 根据 ADD 4 的 指令 模板 ， 操 作 数 1 必须 为 寄存 器 寻 址 ，C 与 eax 寄存 器 是 绑 定 的 。 
6) 操作 数 2 是 优先 寄存 器 寻 址 。B 变量 不 存在 绑 定 寄存 器 ， 因 此 ， 只 需 从 内 存 寻 址 


即 可 。 
7) 处 理 模 板 中 的 指令 序列 ， 将 文本 中 的 “%V1% 和 和 “%V2%” 蔡 换 为 实际 的 操作 数 。 
指令 : add eax,dword ptr [A] 
8) 根据 ADD 4 的 指令 模板 ， 运 算 结果 存放 在 操作 数 1 所 属 的 寄存 器 中 ， 至 此 ，eax 寄 
存 器 绑 定 的 变量 是 B， 而 不 是 C。 

生成 的 代码 序列 如 下 : 


mov eax,A 
add eax,dword ptr [B] 
add eax,dword ptr [A] ;eax 寄存 器 所 绑 定 的 变量 是 也 


通过 例 9-4 的 讲解 ， 笔 者 试图 揭示 基于 指令 模板 进行 代码 生成 的 基本 过 程 。 不 过 ， 这 个 
过 程 比较 抽象 ， 其 中 ， 忽 略 了 许多 实现 细节 ， 例 如 ， 指 令 序列 的 文本 蔡 换 、 寄 存 器 的 绑 定 、 
寄存 器 的 分 配 、 寄 存 器 装 入 与 回 存 等 ， 这 些 细节 将 在 后 续 章节 中 讨论 。 
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9.3.3 ”寄存 器 描述 


要 有 效 进行 寄存 器 


器 描述 信息 
要 关注 的 信 


， 当然 


江 


据 结 构 ， 撕 


【声明 9-1】 
enum 


{ 


其 复杂 性 


器 分 配 、 寄 存 器 绑 定 等 操作 ， 


目标 代码 生成 第 9 党 


代码 生成 器 就 必须 依赖 于 一 套 完整 的 寄存 


生 很 大 程度 上 是 依赖 于 


目标 机 系统 结构 的 。 通 常 ， 代 码 生 成 器 需 


包括 寄存 器 的 大 小 、 寄 存 器 的 名 称 、 寄 存 器 的 关系 等 
， 息 。 


。 下 面 引入 几 个 有 用 的 数 


EAX=0, EBX, ECX, EDX, AX, BX, CX, DX, AH, BH, CH, DH, AL, BL, CL, DL, ESL EDI 


Le 


声明 9-1 列 出 的 就 是 可 参与 分 配 绑 定 


等 ) 是 不 参与 寄存 器 


【声明 9-2】 


分 配 的 。 值 


得 六 


static char Size2Reg[3][8]={ 
{AL, BL, CL, DL, AH BH, CH, DH), 
{AX, BX, CX, DX, -1, -1, -1, -1), 


{EAX, EBX, ECX, EDX, EDL ESL -1, -1} 


人 


Size2Reg 数组 用 于 描述 


字 节 数 到 寄存 器 


的 寄存 器 ， 
意 的 是 ， 浮 点 数据 寄存 器 也 是 不 可 绑 定 的 。 


器 ， 第 1 行 记录 的 是 2 字 节 的 寄存 器 ， 第 2 行 记录 的 是 4 字 节 的 寄存 器 。 其 中 ， 


空 项 。 


【声明 9-3】 


该 列表 中 未 表现 的 寄存 器 (如 ebp、esp 


号 的 映射 关系 。 第 0 行 记录 的 是 1 字 节 的 寄存 


六 = ?9 表示 


static char Reg2Size[]={4, 4, 4, 4, 2, 2, 2, 2, 1,1,1,1,1,1,1,1,4,4}; 


Reg2Size 数组 
映射 ， 在 分 配 寄 存 器 


【声明 9-4】 


数 的 映射 关系 。Reg2Size 与 Size2Reg 是 互 逆 的 


j 于 描述 从 寄存 器 到 字 贡 
器 时 ， 这 两 个 映射 关系 是 非常 有 用 的 。 


static char RegRela[18][5]={ 


{AL, AX, AH, -1, -1), 
{BL, BX, BH, -1, -1), 
{CL, CX, CH, 


3; -1}， 


// 与 eax 相关 的 寄存 器 
// 与 ebx a > 


{DL, DX, DH, -1, -1), 


{AL, EAX AH, -1, -1), 
{BL, EBX, BH, -1, -1), 
{CL, ECX, CH, -1, -1), 
{DL, EDX, DH, -1, -1), 


{EAX, AX, -1, -1, -1}, 


// 与 ax 相关 的 寄存 器 
// 与 bx 相关 的 寄存 器 
// 与 cx 相关 的 寄存 器 
/与 dx 相关 的 寄存 器 


// 与 ah 相关 的 寄存 器 
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RegRela 数组 


{EBX, BX, -1, -1, - 
{ECX, CX, -1, -1, - 
{EDX, DX, -1, -1, - 


{EAX, AX, -1, -1, - 
{EBX, BX, -1, -1, - 
{ECX, CX, -1, -1, - 
{EDX, DX, -1, -1, - 


{1, -1, -1， -1， -1}, 
{-1, -1, -1， -1， -1} 


来 描述 寄存 器 之 间 的 依赖 关系 。 在 介 
寄存 器 交织 访问 的 问题 。 乍 一 看 ， 这 是 一 个 比较 奇怪 的 特性 ， 
的 。 这 里 ， 需 要 关注 的 是 寄存 器 之 间 的 依赖 关系 。 


3 


// 与 bh 相关 的 寄存 
// 与 ch 相关 的 寄存 器 
// 与 dh 相关 的 寄存 器 


器 


名 
如 


器 


™ 


// 与 al 相关 的 寄存 器 
// 与 bl 相关 的 寄存 器 
// 与 cl 相关 的 寄存 器 
// 与 dL 相关 的 寄存 器 


// 与 esi 相关 的 寄存 
/与 edi 相关 的 寄存 


本 
器 

区 
器 


i386 结构 时 ， 笔 者 曾 提 到 过 关于 


例如 ，eax 


但 在 实际 应 用 中 却 是 非常 有 用 
寄存 器 值 的 改变 不 仅 影响 eax 


本 身 ， 还 会 影响 ax、ah、al 三 个 寄存 器 的 状态 。 同 样 ，ax 寄存 器 值 的 改变 也 会 影响 eax、 


ah、al 三 个 寄存 器 的 状态 。 那 么 ， 这 个 依赖 关系 的 作 
关注 某 一 运行 时 刻 的 寄存 器 的 实际 存储 值 ， 当 然 ， 


日 


是 什么 
也 是 不 可 


这 


一 运行 时 刻 所 绑 定 的 具体 变量 或 存储 空间 却 是 代码 生成 器 关心 
于 寄存 器 的 绑 定 是 有 重要 意义 的 ， 例 如 ， 假 设 eax 被 绑 定 到 一 个 4 字 节 变量 时 ， 为 了 保证 代 


码 生成 的 安全 ， 


eaX、 3aX、 


呢 ? 实际 上 ， 代 码 生成 器 并 不 
能 实现 的 。 不 过 ， 寄 存 器 在 某 
的 。 而 RegRela 的 依赖 关系 对 


ah、al 四 个 寄存 器 的 原 有 绑 定 必须 全 部 解除 。 不 过 ， 值 得 注意 的 


是 ， 当 ah 被 绑 定 时 ，eax、ax、ah 三 个 寄存 器 是 必须 解除 原 有 绑 定 的 ， 但 al 的 原 有 绑 定 是 不 


zs 


受 影 响 的 。 其 


FP， ws 79 表示 空 项 。 


实际 上 ， 就 可 变 
形式 存储 ， 与 指令 模板 库 类 似 ， 代 码 4 
理 ， 本 书 略 去 了 这 部 分 实现 。 


目标 的 应 


9.3.4 ”寄存 器 分 配 


本 书 3 


不 打算 深入 讨 


这 里 ， 关 注 的 是 一 种 简单 


而 言 ， 更 理想 的 做 法 是 将 寄存 器 的 描述 
成 器 在 初始 化 时 将 描述 


音 妨 以 外 部 格式 文件 
言 息 读 入 。 不 过 ， 为 了 便于 处 


论 如 何 寻 求 相 对 更 优 的 寄存 器 分 配方 案 ， 这 将 是 一 个 复杂 的 话题 。 
相对 有 效 的 寄存 器 分 配方 式 。 它 的 


目标 任务 是 根据 指令 模板 中 操 


作 数 的 相关 描述 信息 ， 分 配 一 个 能 够 满足 应 用 需求 的 寄存 器 。 为 了 跟踪 寄存 器 的 绑 定 情况 ， 


引入 一 个 


【声明 9-5】 


static map<int, list<OpInfo>> RegVal; 


其 中 ，RegVal 的 关键 字 是 寄存 器 号 。 需 要 说 明 的 是 ， 
数 绑 定 的 。 不 过 ， 这 种 情况 必须 谨慎 处 理 。 
Neo Pascal 寄存 器 分 配 的 基 
个 组 ， 即 1 字 节 寄存 器 组 、2 字 节 寄存 器 组 、4 字 节 寄存 器 组 。 并 
于 分 配 寄存 器 ， 即 AllocCursor 数组 ， 如 
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日 


j 于 记录 寄存 器 绑 定 信息 的 数据 结构 ， 声 明 形 式 如 下 : 


站 


下 面 ， 


日 相 是 


NeNXE 


图 9-4 所 示 。 


奇 存 器 是 可 能 同时 与 多 个 操作 


就 来 看 看 寄存 器 分 配 的 基本 思想 。 
比较 简单 的 。 根 据 寄存 器 的 大 小 ， 将 寄存 器 分 为 3 


日 设置 一 组 游标 变量 ， 用 


以 1 字 
配 请 求 之 后 ， 


CO 


目标 代码 生成 第 9 章 | 


AllocCursor[0] 
Size2Reg[0] [ALT BLT CLT DLT AHTBHTCHT DH \ 
"EE NE NN NN 
AllocCursor[1] 
Size2Reg[1] EAXHIEBXE Cx DX si 
Ne NN NN 


AllocCursor[2] 


Size2Reg[2] EBX EDX[ ED! [ EST | -1 | -1 N 
NN NNN 


图 9-4 寄存 器 分 配 示意 


节 寄 存 器 分 配 为 例 ，AllocCursor[0] 指 向 的 就 是 当前 可 分 配 的 寄存 器 ， 而 每 一 次 分 
AllocCursor[0] 游 标 后 移 一 位 。 当 AllocCursor[0] 游 标 移 到 行 末 时 ， 则 重新 指向 


行 首 。 这 种 分 配 策略 与 操作 系统 中 的 存储 分 配 比较 类 似 ， 当 然 ， II 


题 。 值 得 注 


意 的 是 ， 对 分 配 算法 而 言 ， 可 以 将 寄存 器 资源 分 为 三 类 ， 即 “未 绑 定 ” 寄 存 器 


“已 绑 定 ” 寄 存 器 “不 可 用 ”寄存 器 
“未 绑 定 ”寄存 器 就 是 指 未 绑 定 具体 变量 且 未 被 禁用 的 寄存 器 资源 。 这 类 寄存 器 是 分 本 


算法 优先 考虑 的 。 


“已 绑 定 ”寄存 器 就 是 指 已 绑 定 了 具体 变量 的 寄存 器 资源 。 对 于 这 类 寄存 器 器 资源 ， 原 则 
上 尽 可 能 不 作 分 配 。 不 过 ， 当 “未 绑 定 ”寄存 器 已 分 配 殉 尽 时 ， 这 类 寄存 器 依然 是 可 以 参与 


分 配 的 。 


“不 可 月 


不 能 参与 分 配 的 ， 否 则 会 导致 所 生成 的 代码 不 正确 。 


”寄存 器 就 是 指 当 前 指令 模板 中 有 特殊 限制 的 寄存 嚣 资源， 这 些 寄存 器 是 绝对 


下 面 ， 就 来 看 看 寄存 器 分 配 的 源 代码 实现 。 


程序 9-1 Target.cpp 


int CT 
{ 


1 
凶 
3 
4 
全 
6 
¥ 
8 
9 


10 
11 


arget::RegAlloc(int iSize,int iTarget) 


if (iTarget!=-1 && iTarget!=-2) 
return iTarget; 
int j=1Size/2; 
int iReg=-1; 
set<int> TmpSet; 
static int AllocCursor[3]={0,0,0}; 
int iTmpCursor=AllocCursor[jl; 
int iTmpReg=-1; 
for (;TmpSet.countITmpReg)=—0;iTmpCursor=((iTmpCursor+1 )%8)) 


if(iTmpReg!=-1) 
TmpSet.insert(iTmpReg); 

if (Size2Reg[j][iTmpCursor] == -1) 
continue; 

if (iTarget==-2 
&& (Size2Reg[jl[iTmpCursor]==ESI 
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19 
20 
21 
22 
23 
24 
23 
26 
2 
28 


示 由 


} 


|| Size2Reg[j][iTmpCursor]==EDI)) 
continue; 
iTmpReg=Size2Reg[j][iTmpCursor]; 
if (Forbid.counti TmpReg)==0 
&& (RegVal.count(iTmpReg)==0 
| RegVal[iTmpReg].emptyO)) 


{ 
iReg=iTmpReg; 
break; 
} 
} 
TmpSet.clear(); 
iTmpRee=-1; 
if (iReg==-1) 
{ 
for (;TmpSet.countiTmpReg)—0;iTmpCursor=((ITmpCursor+1 )%8)) 
{ 
if(iTmpReg!=-1) 
TmpSet.insert(iTmpReg); 
if (Size2Reg[jl[iTmpCursor] == -1) 
continue; 
if (iTarget==- 
&& (Size2Reg[jl[liTmpCursor]—ESI 
|| Size2RegD][LiTmpCursorlj==EDD) 
continue; 
iTmpReg = Size2Reg[j][iTmpCursor]l; 
if (Forbid.countiI TmpCursor)==0) 
{ 
iReg=iTmpReg; 
break; 
} 
} 
} 
AllocCursor[]=(GTmpCursor+1)%18; 
if (iReg==-1) 
EmitError("out of register"); 
return iReg; 


第 3、4 行 : 参数 iTarget 是 目标 寄存 器 的 编号 。 在 默认 情况 下 ，iTarget 的 值 为 -1， 即 表 
代码 生成 器 随机 分 配 寄存 器 。 如 果 iTarget 的 值 为 -2， 即 表示 由 代码 生成 器 随机 分 配 可 
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织 寻 址 的 寄存 器 。 其 他 情况 则 表示 必须 分 配 参 数 iTarget 所 指定 的 寄存 器 。 


第 6 行 : 
第 7 行 : 
第 8 行 : 


iReg 用 于 记录 分 配 得 到 的 寄存 器 号 。 
TmpSet 用 于 记录 算法 曾经 考察 过 的 寄存 器 号 ， 避 人 免 同 一 寄存 器 被 重复 考察 。 
AllocCursor 是 用 于 分 配 寄存 器 的 一 组 游标 。 


目标 代码 生成 第 9 党 


第 9 行 : 根据 所 需 分 配 寄存 器 的 大 小 ，iTmpCursor 指向 相应 的 游标 。 
第 11 一 25 行 : 考察 大 小 满足 条 件 的 寄存 器 组 ， 检 索 是 否 存在 “未 绑 定 ” 寄 存 器 ， 
存在 未 绑 定 寄存 器 ， 则 直接 予以 分 配 。 


如 果 


第 13、14 行 : 在 循环 考察 寄存 器 组 时 ，TmpSet 集合 用 于 避免 同一 寄存 器 被 重复 考察 。 


如 果 当 前 寄存 器 号 已 存在 于 TmpSet 集合 中 ， 则 结束 循环 考察 。 
第 17 一 20 行 : 如 果 iTarget 为 -2， 则 不 能 分 配 ESI、EDI。 


第 22 一 28 行 : 判断 当前 寄存 器 是 否 为 “未 绑 定 ”寄存 器 。Forbid 是 一 个 全 局 集合 ， 其 


中 记录 的 是 “不 可 用 ”寄存 器 。 


第 32 一 $1 行 : 如 果 iReg 为 -1， 则 表示 当前 已 无 “未 绑 定 ” 寄 存 器 可 以 分 配 。 在 这 种 情 
况 下 ， 就 必须 从 “已 绑 定 ” 寄 存 器 中 选择 合适 的 寄存 器 予以 分 配 ， 此 时 ， 就 产生 了 寄存 器 溢 


出 的 情况 。 当 然 ,“ 不 可 用 ”寄存 器 仍然 是 不 参与 分 配 的 。 
第 52 行 : 修改 游标 的 指向 。 
第 53、54 行 : 如 果 没 有 适合 的 寄存 器 予以 分 配 ， 则 表示 寄存 器 已 耗 尽 。 


本 节 所 讨论 的 寄存 器 分 配 算法 主要 应 用 于 较 低 层次 的 实现 。 对 于 更 优 的 寄存 器 分 配 算 


法 ， 这 种 修改 并 不 会 对 当前 的 实现 造成 太 大 的 影响 。 最 经 典 的 寄存 器 分 配 算法 就 是 


“图 着 


寄存 器 溢出 是 有 代价 的 ， 因 此 ， 需 要 评估 决策 。Neo Pascal 对 此 并 没有 作 太 多 考虑 ， 


色 ” 算 法 ， 当 所 有 “未 绑 定 ”寄存 器 均 被 占用 时 ， 如 何 选 择 溢出 寄存 器 是 该 算法 所 关 汶 


FE 的 。 


\ 
兴趣 


的 读者 可 以 参考 “ 鲸 书 ”。 
最 后 ， 再 来 看 看 寄存 器 溢出 的 相关 实现 。 


程序 9-2 Target.cpp 


1 void CTarget::SaveRegs(int iReg,bool bFlg) 

2 1{ 

3 for(int 1=0;1<5 && RegRelaliReg][i]!=-1;i++) 
4 { 

S SaveReg(RegRelaliReg][il,bFlg); 

6 RegVal[RegRelaliReg][lill.clear(); 

7 } 

8 } 


以 上 代码 遍历 与 当前 寄存 器 有 依赖 关系 的 所 有 寄存 器 ， 并 调用 SaveReg 函数 ， 将 寄存 器 


的 值 回 存 到 存储 器 中 。 


程序 9-3 Target.cpp 
1 voidCTarget::SaveReg(int iReg,bool bFlg) 

1 

3 set<int> TmpSet; 

4 for(list<OpInfo>::iterator it=RegValliRegl].begin();it!=RegValliRegl].end();) 
5 { 

6 if (it->m iType!=OplInfo::VAR || (bFlg && IsDeadVar(*it))) 

Y { 

8 


it+ 十 ; 
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9 continue; 
10 } 
11 if (TmpSet.count(it->m iLink)==0) 
12 { 
13 TmpSet.insert(it->m iLink); 
14 int iSize=Reg2Size[iRegl; 
15 vector<string> ParaStr; 
16 Parastr.push_back(RegName[iReg]); 
]y ParaStr.push back(""); 
18 ParaStr.push_ back(GetOpDataStr(*it)); 
19 IRtoAsmList("#MOV _"+itos(iSize)+" %V.1% %V.3%",ParaStr); 
20 } 
21 RegVal[iReg].erase(it++); 
2 } 
2 } 


第 4~22 行 : 遍历 指定 寄存 器 的 所 有 绑 定 变量 信息 ， 生 成 相应 的 mov 指令 ， 以 便 将 寄 
存 器 的 值 回 存 到 存储 器 中 。 


第 6 一 10 行 : 在 bFlg 为 真 的 情况 下 ， 如 果 ; 


Ein 


情况 下 ， 都 需要 回 存 。 
第 11 一 20 行 : 调用 IRtoAsmList 函数 生成 mov 指令 ， 其 中 ParaStr 用 于 传递 参数 。 


8 变量 为 死 变量 ， 则 不 需要 回 存 。 在 其 他 


在 指 


令 模 板 库 中 ， 专 门 设 置 了 三 个 模板 〈 即 MOV_1、?z#MOV 2、#MOV 4) 用 于 将 寄存 器 的 值 


| 


免 出 现 多 次 回 存 的 情况 。 
9.3.5 ”代码 生成 器 的 基本 结构 


前 面 ， 已 经 详细 介绍 了 寄存 器 分 配 的 基本 思想 与 实现 。 本 小 节 将 关注 代码 生成 器 


存 到 内 存 ， 这 三 个 指令 模板 仅 限 寄存 器 溢出 使 用 。 当 然 ， 这 里 需要 借助 于 TmpSet 集合 避 


FE 体 结 


构 的 源码 实现 。 通 过 本 程序 的 源 代码 分 析 ， 读 者 可 以 了 解 到 许多 代码 生成 的 实现 细节 ， 
令 模 板 的 应 用 、 寄 存 器 的 调度 、 寄 存 器 溢出 等 。 在 详细 分 析 源 代码 之 前 ， 笔 者 先 引 入 一 个 指 
令 模 板 的 相关 数据 结构 Pattern。 


【声明 9-6】 
struct Pattern 


{ 


string szPa 


ttern; 


vector<Code> CodeList; 


vector<RegFlg> Flg; 


vector<int> SaveReg; 


3 


lh ， 这 是 指令 模板 的 关键 字 。 


szPattern: 模式 里 


CodeList: 指令 序列 ， 这 是 目标 代码 的 实体 ，Code 结构 说 明 如 声明 9-6 所 示 。 


Flg: 操作 数 的 来 源 信息 ， 包 括 来 源 标 


SaveReg: 不 可 
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j 寄 存 器 列表 ， 即 使 用 本 指令 模板 前 必须 回 存 的 寄存 器 。 


如 指 


记 的 相关 信息 ，RegFlg 结构 说 明 如 声明 9-7 所 示 。 


目标 代码 生成 第 9 党 


【声明 9-7】 
struct Code 


{ 


string Label; 

string Op; 

vector<string> Operand1; 

vector<string> Operand2; 

vector<string> Operand3; 

string Comment; 

上 

Label: 指令 的 标号 。 
Op: 指令 的 操作 码 。 
Operand1: 指令 的 操作 数 1。 
Operand2: 指令 的 操作 数 2。 
Operand3: 指令 的 操作 数 3。 
Comment: 指令 的 注释 。 


【声明 9-8】 
struct RegFlg 
{ 


char cFlg; 

char CReg; 

int iSize; 

上 
cFlg: 操作 数 的 来 源 标 志 。 
cReg: 如 果 操 作 数 的 值 必须 来 源 于 某 一 特定 寄存 器 ， 则 cReg 记录 的 是 该 寄存 器 的 编号 。 
iSize: 操作 数 的 大 小 。 
前 面 主要 讨论 了 指令 模板 的 相关 数据 结构 ， 这 是 剖析 代码 生成 器 源码 的 重要 基础 。 代 码 
生成 器 是 以 操作 数 来 源 作 为 主线 实现 的 ， 下 面 就 来 看 看 代码 生成 器 的 实现 细节 。 


程序 9-4 Target.cpp 

1 bool CTarget::IRtoASM() 
2 

3 CDataFlowAnalysis::DataFlowAnalysis(); 

4 pCurrBlock = NULL; 

5 GenlInit(State.m szSysDirt+"AsmScheme.txt"); 

6 CurrProcld=-1; 

以 CurrAsmCodeList=GetAsmCodeList(CurrProcId); 
8 IRtoAsmList("FILESTART",ParaStr]1); 
9 


GetLibAsm(); 
10 MemoryAlloc(); 
11 RecOpAsm(".code"); 
12 for (int i=0;i<SymbolTbl.ProcInfoTbl.size();i++) 
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13 
14 
15 
16 
17 
18 
19 
20 
21 
D2 
23 
24 
25 
26 
27 
28 
29 
30 
31 
弹 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
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过 (SymbolTbl.ProcInfoTbl[I].m_bUsed==false) 


continue; 

if (SymbolTbl.ProcInfoTbl.at(i).m_eFlag=——ProcInfo::Extern) 
continue; 

if (SymbolTbl.ProcInfoTbl.at(i).m_ szName=="_noname" 
continue; 


CurrProcId=[; 
CurrAsmCodeList=GetAsmCodeList(CurrProclId); 
RecContentAsm(";function:"+SymbolTbl.ProcInfoTbl.at(i).m szName); 
RecContentAsm(";process of start"); 
if (=0) 
IrtoAsmList("MAINSTART",ParaStr1); 
ParaStr1 .clear(); 
ParaStrl.push_ back(itos(GetProcVarSize(i))); 
ParaStrl.push back(" "+SymbolTbl.ProcInfoTbl.at(i).m_szName); 
IrtoAsmList("FUNCSTART %V.1% %V.2%",ParaStr1); 
vector<CbasicBlock> Blocks=BasicBlock[1]; 
for(int j=0;j<Blocks.size();j++,RegClearAll()) 
{ 
pCurrBlock = &(Blocks[j]); 
for (int p=Blocks[j].iStart;p<=Blocks[j].iEnd;p++) 
{ 
int iSize,iRegl,iReg?,iReg?; 
vector<int> ExtReg; 
CurrIR =p; 
IRCode * tmp=&(SymbolTbl.ProcInfoTbl[I].m Codes[p]) 
RecContentAsm(";"+GetIRStr(*tmp)); 
if (tmp->m eOpType==PARA) 
{ 
GenParaAsm(*tmp); 
continue; 


} 


if (tmp->m eOpType==ASSIGN N) 
{ 
GenAssiegnNAsm(*tmp); 
continue; 


和, 
了 了 


if (tmp->m eOpType==ASM) 


FE 
1 


string szIncludeAsm=SymbolTbl.ConstInfoTbl[ 


tmp->m Opl.m iLink].m szName; 
RecOpAsm(szIncludeAsm.substr(1,szIncludeAsm.length()-2) 


,tmp->m Op2); 


continue; 


= 一 


59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
70 
71 
72 
19 
74 
75 
76 
78 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 
94 
95 
96 
97 
98 
99 

100 

101 

102 

103 

104 

105 
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if (tmp->m eOpType==RETV) 
{ 

GenRetAsm(*tmp); 

continue; 
} 
string szPatternStr=GetOpStr(tmp->m eOpType); 
if (tmp->m eOpType>>4<<4 == OpType::IN) 

szPatternStr="IN"; 
string szTmp=GetOpDataPattern(tmp->m Op1); 
if (szTmp!="") 

szPatternStr=szPatternStr+" %"+szTmp+".1%"; 
szTmp=GetOpDataPattern(tmp->m Op2); 
if (szTmp!="") 

szPatternStr=szPatternStr+" %"+szTmp+".2%"; 
szTmp=GetOpDataPattern(tmp->m Rslt); 
if (szTmp!="") 

szPatternStr=szPatternStrt+" %"+szTmp+".3%"; 
Pattern AsmPattern; 
if (CodePattern.SearchPattern(szPatternStr,AsmPattern)) 
{ 

ParaStrl.clear(); 

ExtReg.clear(); 

Forbid.clear(); 

for(int 1=0;i<AsmPattern.SaveReg.size();i+t+) 

{ 

SaveRegs(i); 
RegForbid(i); 


1 
J, 


for(int 1=3;i<AsmpPattern.Flg.size();i++) 


划 


int j=RegAlloc(AsmPattern.Flg[il.iSize 
,AsmPattern.Flg[i].cReg); 

SaveRegs(]); 

RegForbid()); 

ExtReg.push back(]); 


} 


if (tmp->m Opl.m iType==OpInfo::VAR) 
{ 

iSize = AsmPattern.Flg[0].iSize; 

if (tmp->m Opl.m bRef) 


{ 
下 egl=OpReftmp->m Opl1,AsmPattern.Flg[0].cReg,iSize); 
RegForbid(iReg1l); 
ParaStr1.push_back(RegName[iRegl]); 

} 

else 
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106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
2 
123 
124 
125 
126 
2 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 
139 
140 
141 
142 
143 
144 
145 
146 
147 
148 
149 
150 
151 
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{ 

if (AsmPattern.Flg[0].cFlg==0) 

{ 
iRegl=RegSeek(tmp->m Opl1,iSize); 
if (iReg1!=-1) 

SaveReg(GRegl); 
ParaStrl.push back(GetOpDataStr( 
tmp->m_Op1)); 

jiRegl=-1; 

} 


if (AsmPattern.Flg[0].cFlg==1) 
{ 
iRegl=RegSeek(tmp->m Op],iSize); 
if GRegl1==-1) 
{ 
iRegl=RegAlloc(iSize,AsmPattern. 
Flg[0].cReg); 
SaveRegs(iReg!1); 
RegForbid(iReg1); 
LoadReg(iRegl,tmp->m_ Op!1); 
SetVal(iRegl,tmp->m Op!1); 


else 


RegForbid(iReg1); 


ParaStrl.push back(RegName[iReg1)]); 
} 
if (AsmPattern.Flg[0].cFlg==2) 
{ 
iRegl=RegSeek(tmp->m Opl,iSize); 
if (iRegl==-1) 
ParaStrl.push_ back(GetOpDataStr( 
tmp->m_OPp1)); 
else 
ParaStrl.push back(RegName[iReg1)]); 


= 一 


if (tmp->m Opl.m iType == OpImfo::CONST 
&& AsmPattern.Flg[0].cFlg!=0) 


iSize = AsmPattern.Flg[0].iSize; 
vector<string> TmpPara; 
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152 iRegl=RegAlloc(iSize); 

153 SaveRegs(iReg!1); 

154 RegForbid(iRegl); 

SS TmpPara.push_ back(GetOpDataStr(tmp->m Op}1)); 
156 TmpPara.push_ back(""); 

lS TmpPara.push back(RegName[iReg1]); 

158 JIRtoAsmList( 

159 "#MOV_"+itos(iSize)+" %V.1% 
160 %V.3%",TmpPara); 

161 ParaStrl.push back(RegName[liReg1)); 

162 } 

163 else 

164 { 

165 if (tmp->m Opl.m iType == OpImfo:NONE) 
166 ParaStrl.push_ back(""); 

167 else 

168 ParaStrl.push_ back(GetOpDataStr( 
169 tmp->m Op1)); 

170 } 

171 } 

172 if (tmp->m Op2.m iType==OpInfo::VAR) 

i173 { 

174 iSize = AsmPattern.Flg[1].iSize; 

用 入 if (tmp->m Op2.m_bRef) 

176 { 

Ug iReg2=OpRef(tmp->m Op2,AsmPattern.Flg[1]. 
178 cReg,i Size); 

179 RegForbid(iReg2); 

180 ParaStrl.push back(RegName[iReg2)); 

181 } 

182 else 

183 { 

184 if (AsmPattern.Flg[1].cFlg==0) 

185 { 

186 iReg2=RegSeek(tmp->m Op2,iSize); 
187 if GReg2!=-1) 

188 SaveReg(iReg?2); 

189 ParaStrl.push_ back(GetOpDataStr( 
190 tmp->m Op2)); 

191 iReg2=-1; 

192 } 

193 if (AsmPattern.Flg[1].cFlg==1) 

194 { 

195 iReg2=RegSeek(tmp->m Op2,iSize); 
196 if GReg2==-1) 

197 { 
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198 iReg2=RegAlloc(iSize,AsmPattern. 
199 Flg[1].cReg); 

200 SaveRegs(IReg2); 

201 RegForbid(iReg2); 

202 LoadReg(iReg?2,tmp->m Op2); 
203 SetVal(iReg2,tmp->m Op2); 

204 

205 else 

206 { 

207 RegForbid(iReg2); 

208 } 

209 ParaStrl.push back(RegName[iReg2)); 
210 } 

211 if (AsmPattern.Flg[1].cFlg==2) 

ll2 { 

213 iReg2=RegSeek(tmp->m Op2,iSize); 
214 if (iReg2==-1) 

21S ParaStrl.push_ back(GetOpDataStr 
216 (tmp->m Op2)); 

2 else 

218 ParaStrl.push_ back(RegName[iResg2]); 
21® } 

220 } 

221 } 

222 else 

223 { 

224 if (tmp->m Op2.m iType==OpInfo::CONST) 

225 { 

226 iSize = AsmPattern.Flg[11].iSize; 

2 vector<string> TmpPara; 

228 iReg2=RegAlloc(iSize); 

229 SaveRegs(iReg2); 

230 RegForbid(iReg2); 

231 TmpPara.push_ back(GetOpDataStr(tmp->m Op2)); 
23 多 TmpPara.push back(""); 

233 TmpPara.push back(RegName[iReg2]); 

234 IRtoAsmList( 

235 "#MOV_"+itos(iSize)+" %V.1% %YV.3%", 
236 TmpPara); 

237 ParaStrl.push back(RegName[iReg2)); 

238 } 

239 else 

240 { 

241 if (tmp->m Op2.m iType == OpInfo::NONE) 
242 ParaStrl.push back(""); 

243 else 
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246 
247 
248 
249 
250 
23 
2 
233 
254 
255 
256 
253Y 
258 
2359 
260 
261 
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263 
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267 
268 
269 
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272 
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2 
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2 
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284 
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ParaStrl.push back(GetOpDataStr(tmp->m 
_OPp2)); 


if (tmp->m Rslt.m iType==OpInfo::VAR) 


{ 


= 一 


iSize = AsmPattern.Flg[21.iSize; 
vector<string> TmpPara; 

string szTmp = GetOpDataStr(tmp->m Rslt); 
if (tmp->m Rslt.m bRef) 


{ 


else 


1 
了 了 


iReg3=RegAlloc(4); 

SaveRegs(iReg3); 

SetVal(iReg3,tmp->m Rslt); 

TmpPara.push_ back(GetOpDataStr(tmp->m Rslt)); 
TmpPara.push_ back(""); 
TmpPara.push_back(RegName[iReg3]); 
RegRefSave(); 

IRtoAsmList(#MOV 4 %V.1% %V.3%",TmpPara); 
TmpPara.clear(); 

TmpPara.push_ back("["+RegName[iReg3]+"]"); 


if (AsmPattern.Flg[2].cFlge—0) 


iReg3=-1; 

if (AsmPattern.Flg[2].cFlg==1) 

{ 
iReg3=RegAlloc(iSize,AsmpPattern.Flg[2]|. 
cReg); 
SaveRegs(iReg3); 
RegForbid(iReg3); 
SetVal(iReg3,tmp->m Rslt); 
SZTmp=RegName[iReg3]; 

} 


if (AsmPattern.Flg[2].cFlg==2) 
SetVal(iReg2,tmp->m Rslt); 

if (AsmPattern.Flg[2].cFlg==3) 
SetVal(iRegl1,tmp->m Rslt); 


ParaStrl.push back(szTmp); 


ParaStrl.push back(GetOpDataStr(tmp->m Rslt)); 
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此 ， 数 据 流 信息 是 必 不 


291 for(vector<int>::iterator 
9 it=ExtReg.begin();it!=ExtReg.end();it++) 
293 ParaStrl.push back(Name2Reg[*it]); 
294 IRtoAsmList(szPatternStr,ParaStr1); 
295 LabelMap.clear(); 
296 } 
297 } 
298 } 
299 RecContentAsm(";process of end"); 
300 if (SymbolTbl.ProcInfoTbl.at(i).m eType==ProcInfo::Type::Function) 
301 { 
302 int iRetSize=SymbolTbl.TypeInfoTbl[SymbolTbl.ProcInfoTbl.at(?) 
303 .m iReturmnTypel.m iSize; 
304 ParaStr1.clear(); 
305 ParaStrl.push_ back( 
306 "ebp+ "+SymbolTbl.ProcInfoTbl.at(i).m szName+"$RESULT"); 
307 if (iRetSize<=4) 
308 IRtoAsmList("FUNCRET4 %V.1%",ParaStr1); 
309 else if IRetSize<=8) 
310 IRtoAsmList("FUNCRETS %V.1%",ParaStr1); 
311 else 
312 IRtoAsmList("FUNCRETA %V.1%",ParaStr1); 
313 } 
314 ParaStrl .clear(); 
315 ParaStrl.push back(itos(GetProcParaSize(i))); 
316 ParaStrl.push back(" "+SymbolTbl.ProcInfoTbl.at(i).m_szName); 
317 IRtoAsmList("FUNCEND %V.1% %V.2%",ParaStr1); 
318 } 
319 CurrProcId=-2; 
320 CurrAsmCodeList=GetAsmCodeList(CurrProclId); 
321 IRtoAsmList("FILEEND",ParaStr1); 
322 return true; 
3239)} 
第 3 行 : 调用 CDataFlowAnalysis::DataFlowAnalysis 函数 完成 数据 流 分 析 。 代 码 生 
器 对 数据 流 信息 的 依赖 程度 是 比较 大 的 ， 尤 其 在 评估 死 变量 时 。 因 
可 少 的 。 
第 4 行 : pCurrBlock 指针 用 于 指向 当前 正在 分 析 的 基本 块 ， 在 算法 实现 中 ，pCurrBlock 
指针 是 非常 有 用 的 。 
第 5 行 : 调用 Genmnit 函数 ， 初 始 化 指令 模板 库 。 代 码 生成 器 将 从 系统 文件 夹 中 的 
AsmScheme.txt 文件 读 取 指 令 模 板 库 。 关 于 指令 模板 的 格式 ， 请 参考 9.3.2 节 。 
第 6 行 : CurrProcId 用 于 记录 当前 正在 分 析 的 函数 符号 。 
第 7 行 : CurrAsmCodeList 用 于 指向 目标 代码 的 插入 点 。 关 于 目标 代码 的 数据 结构 ， 笔 
者 稍 后 详解 。 
第 8 行 : 调用 IRtoAsmList 函数 ， 生 成 目标 代码 。IRtoAsmList 函数 的 第 1 个 参数 就 是 用 


410 


目标 代码 生成 第 9 党 


于 匹配 指令 模板 的 模式 串 。 而 第 2 个 参数 是 根据 IR 产生 的 参数 列表 ， 这 个 参数 列表 将 在 匹 


日 


第 9 行 : 调用 
第 10 行 : 
第 11 行 : 
第 12 一 306 行 
第 14、15 行 : 
第 16、17 行 : 
第 18、19 行 : 
第 20 行 : 
第 21 行 : 
第 22、23 行 : 
第 24、25 行 : 


第 27~29 行 


间 大 小 。 


第 30 行 : 获取 当前 过 程 
第 31 一 286 行 : 遍历 当前 过 程 的 所 有 基本 块 。 基 本 块 是 寄存 器 分 配 与 管理 


到 指令 模板 后 ， 


调用 MemoryAlloc 函 
调用 RecOpAsm 函数 


令 CurrAsmCodeList 指 钊 


GetLibAsm 函数 ， 在 汇 
数 ， 在 
， 在 汇 乡 


: 遍历 过 程 信息 表 。 
忽略 未 被 引用 的 过 程 。 
忽略 外 部 过 程 或 函 
忽略 匿名 过 程 或 函 


于 蔡 换 模板 中 指令 序列 的 参数 ， 
“FILESTART” 模 板 主 要 用 于 在 汇编 代码 列表 中 生成 文件 头 部 声明 。 
编 代 码 列表 中 生成 库 引 用 贡 
汇编 代码 列表 中 生成 变量 、 常 量 等 符号 声明 。 
代码 列表 中 生成 “.code” 文 件 。 
尺码 生成 是 以 过 程 为 单位 进行 的 。 

这 些 过 程 是 不 需要 生成 目标 代码 的 。 

数 ， 这 些 过 程 也 是 不 需要 生成 目标 代码 的 。 

数 ， 这 些 过 程 可 以 视 作 未 实例 化 的 过 程 类 型 。 
令 CurrProcId 指向 当前 过 程 符号 。 


中 


以 


| 指向 当前 
在 汇 5 


如 果 当 前 过 程 是 主 程 


的 基本 块 列表 。 


Neo Pascal 中 ， 跨 越 基本 块 的 寄存 器 管理 
: 遍历 当前 基本 块 的 下 序列 ， 逐 一 


第 34~285 行 


不 予 考 虑 。 


第 39 行 : 获取 当前 及 。 


第 40 行 : 在 汇编 代码 列表 中 生成 关于 当前 IR 的 注 
第 41 一 45 行 : 如 果 当 前 IR 的 操作 码 为 PARA， 则 调用 GenParaAsm 4 


代码 。 
第 46 一 50 行 : 
的 目标 代码 。 
第 $1 一 58 行 : 
第 59~63 行 : 


如 
如 果 当 前 下 


第 64 一 75 行 : 


第 78 一 283 行 : 
第 81 行 : 清空 ExtReg 向 量 。 值 得 
的 辅助 寄存 器 。 事 实 上 ， 通 用 的 指令 模板 仍 有 一 定局 


运用 模式 串 


3 


器 溢出 。 这 里 ， 借 


第 82 行 : 清空 Forbid 集合 。 


调用 


SaveRegs 水 


甫 助 的 寄存 器 实现 。 
助 于 ExtReg 问 量 记录 当前 模板 的 加 
于 记录 指令 模板 中 的 “不 可 用 ”寄存 器 。 

第 83 一 87 行 : 遍历 当前 指令 模板 的 SaveReg 集合 。SaveReg 集合 中 记录 的 正 是 当 
令 模 板 中 “不 可 用 ”的 寄存 器 号 ， 也 就 是 说 ， 指 定 寄 存 器 在 模板 中 有 特殊 应 用 。 


因此 ， 在 应 用 此 类 指令 模板 时 ， 


过 程 的 汇 
i 代 码 列表 中 生成 关于 当前 过 程 的 注释 说 明 。 
闻 ， 则 应 用 “MAINSTART” 模 板 生 成 “start: ”标号 。 
: 应 用 “FUNCSTART” 模 板 生成 函数 起 始 部 分 的 相关 代码 ， 主 要 是 运 
时 刻 栈 的 维护 代码 。 其 中 ，ParaStrl 列表 的 第 2 个 参数 是 当前 过 程 或 函数 所 属 


果 当 前 R 的 操作 人 码 为 ASM， 则 将 内 内 汇 编 文 本 直接 插 到 
的 操作 码 为 RETV， 则 调用 GenRetAsm 生成 相应 的 目标 代码 。 
民 据 IR 的 操作 码 、 操 作 数 等 情况 ， 生 成 相应 模式 串 。 

匹配 指令 模板 库 ， 如 果 检 索 成 功 ， 则 根据 模板 指示 入 
注意 的 是 ，ExtReg 向 量 的 作用 就 是 标识 指令 模板 中 
限 ， 对 于 较 复 杂 的 应 用 ， 不 得 不 借助 了 
辅助 寄存 器 而 产生 的 寄存 


代码 列表 。 


最 终生 成 目标 代码 。 


行 
宇 


[Es 


局 部 变量 世 


的 单位 。 在 


生成 相应 的 目标 代码 。 


E 成 相应 的 目标 
如 果 当 前 IR 的 操作 码 为 ASSIGN N， 则 调用 GenAssignNAsm 生成 相应 


目标 代码 中 。 


成 代码 。 


助 于 


也 必须 关注 因 


和 助 寄存 器 。 


Forbid 集合 


当 


前 指 


HB! 


因此 ， 


数 ， 生 成 代码 将 指定 寄存 器 的 值 加 


存 到 相应 的 内 存 中 ， 如 果 指 定 寄存 器 并 
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上 局- 
蛙 ， 


没有 绑 定 变量 ， 则 不 
第 88 一 95 行 : 
第 96 一 166 行 : 
第 99 一 104 行 : 
接 寻 址 访问 的 汇编 代 


根据 指令 模板 的 畏 


作 处 理 。 


助 寄存 器 列表 
根据 操作 数 1 生成 相应 的 参数 ， 
如 果 操 作 数 1 的 m_bRef 为 真 ， 


码 。 值 得 注意 的 是 ， 为 了 保证 安全 ， 这 里 涉及 的 寄存 器 将 如 


译 过 程 中 不 可 再 分 配 
第 107 一 113 行 

址 。 如 果 操 作 数 存在 
第 

址 。 如 果 操 作 数 不 存 

其 中 ，LoadReg 函数 


寄存 器 绑 定 。 


第 132 一 139 行 : 指令 模板 中 操作 数 来 源 标记 为 2， 则 
址 。 如 果 操 作 数 存 在 于 寄存 器 中 ， 则 优先 从 寄存 器 取 值 ， 否 则 从 内 存 取 值 。 
操作 数 来 源 不 为 直接 内 存 寻 址 ， 则 生成 代码 将 


第 144 一 158 行 : 


操作 数 1 的 值 传送 到 


， 因 此 ， 也 可 以 视 为 “不 可 用 


， 生 成 相应 的 汇编 代码 。 
以 便 蔡 换 指令 模板 中 的 “%V.1%”。 


则 必须 调用 OpRef 函数 ， 并 


”寄存 器 。 


生成 用 于 间 
E 当 前 下 翻 


: 指令 模板 中 操作 数 来 源 标 记 为 0， 则 表示 该 操作 数 必须 为 直接 内 存 寻 
于 寄存 器 中 ， 则 必须 将 其 存 到 内 存 中 ， 然 后 再 从 内 存 直接 取 值 。 


月 


如 果 操 作 数 1 为 常量 


输 至 寄 


代 


115 一 131 行 : 指令 模板 中 操作 数 来 源 标 记 为 1， 则 表示 该 操作 数 必须 为 寄存 器 寻 


在 于 寄存 器 中 ， 则 必须 先 将 其 传 存 器 ， 然 后 再 从 该 寄存 器 取 值 。 


与 


第 160 一 164 行 : 在 其 他 情况 下 ， 根 据 操作 数 1 生成 参数 相应 的 参数 字符 串 即 可 。 


第 167 一 236 行 : 


这 部 分 源码 的 实现 与 


第 237 一 278 行 : 根据 操作 数 3， 生 成 相应 的 参数 ， 以 便 蔡 换 指令 模板 
果 操 作 数 3 的 m_bRef 为 真 ， 
代码 。 
引 令 模板 中 操作 数 来 源 标记 为 1， 则 表示 需要 日 


第 242~255 行 : 
间接 寻 址 访问 的 汇 乡 


第 260 一 267 行 : 


存储 运算 结果 。 


第 268 一 269 行 : 


的 寄存 器 中 。 因 此 ， 


第 270~271 行 : 


的 寄存 器 中 。 因 此 ， 


寄存 器 。 
根据 操作 数 2， 
操作 数 1 的 处 理 类 似 ， 不 再 更 述 。 


如 


和 


和 
这 里 需要 调用 SetVal 也 


这 里 需要 调用 SetVal 也 


变量 与 操作 数 


变量 与 操作 数 2 的 寄存 器 绑 
则 表示 将 运算 结果 存放 在 操作 数 1 


7 


人 Lo 


7 


人 Lo 


1 的 寄存 器 绑 


P 的 “%V.3%”。 
则 必须 调用 OpRef 函数 ， 并 生成 用 于 


请 一 个 寄存 器 ， 用 


于 生成 将 变量 值 读 入 寄存 器 的 指令 代码 。 而 SetVal 函数 用 于 将 变量 


示 该 操作 数 为 优先 寄存 器 


I 


本 
二- 


生成 相应 的 参数 ， 以 便 蔡 换 指令 模板 中 的 “%V.2%”。 


于 


引 令 模板 中 操作 数 来 源 标记 为 2， 则 表示 将 运算 结果 存放 在 操作 数 2 
数 将 结果 
指令 模板 中 操作 数 来 源 标记 为 3， 
数 将 结果 


第 279 一 281 行 : 将 ExtReg 集合 中 指示 的 寄存 器 名 也 加 入 ParaStrl 中 ， 供 IRtoAsmList 


函数 使 用 。 


第 282 行 : 调用 IRtoAsmList 函数 ， 根 据 当 前 指令 模板 及 传 入 参数 列表 ParaStr1， 生 成 


相应 的 目标 代码 。 
第 288 一 301 行 
型 的 大 小 ， 分 别 应 用 
第 302 一 305 行 
时 刻 栈 的 维护 代码 。 


: 如 果 当 前 过 程 存 在 返回 类 型 ， 


“FUNCRET4”、 “FUNCRETS8”、 “FUNCRETA 


则 需要 处 理 返 


回 值 的 传递 。 根 据 返 


”模板 进行 代码 生成 。 


可 | 


: 应 用 “FUNCEND” 模 板 生 成 函数 结尾 部 分 的 相关 代码 ， 主 要 是 运行 


大 小 。 


第 307 一 309 行 : 
至 此 ， 笔 者 已 经 
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应 


“FILEEND ”模板 生成 


[ 编 文 件 结尾 部 分 的 相关 代码 。 
详细 介绍 了 代码 生成 器 的 基本 结构 。 本 程序 的 源 代码 篇 幅 较 长 ， 阅 读 理 


其 中 ，ParaStrl 列表 的 第 2 个 参数 是 当前 过 程 或 函数 所 属 参数 的 空间 


目标 代码 生成 第 9 党 


解 可 能 有 一 定 难度 ， 建 议 读者 仔细 推 项 。 


94 深入 学 习 


关于 代码 生成 的 话题 , 《The Compiler Design Handbook》 是 一 本 非常 权威 的 书 。 另 外 ， 
《可 变 目标 C 编译 器 一 一 设计 与 实现 》 描 述 的 代码 生成 器 也 是 一 个 不 错 的 选择 ， 只 不 过 它 是 
基于 DAG 形式 的 IR 进行 讨论 的 。 
1、 Compilers and Compiler Generators P.D. Terry Rhodes University 
说 明 : 本 书 是 很 不 错 的 编译 技术 的 入 门 教材 ， 比 “ 紫 龙 书 ” 简 单一 些 。 


2、 编 译 原理 ( 紫 龙 书 Alfred V. Abho, Monica S. Lam, 
Ravi Sethi 


说 明 : 编译 技术 的 经 典 著作 ， 不 过 ， 对 于 初学 者 而 言 ， 书 中 部 分 内 容 有 一 定 难度 。 


A 


机 械 工 业 出 版 社 


3、The Compiler Design Handbook Y. N. Srikant, Priti Shankar CRC Press 

说 明 : 本 书 是 以 优化 与 代码 生成 为 主 的 高 级 手册 ， 详 细 阐 述 了 基于 不 同 目标 机 的 优化 与 代码 生成 技术 。 

4、 编 译 器 工程 Keith D. Cooper, Linda Torczon 机 械 工 业 出 版 社 
说 明 : 这 是 一 本 以 介绍 编译 器 实践 工程 为 主 的 教材 ， 堪 称 继 “ 龙 书 ” 之 后 的 另 一 本 经 典 著作 。 

5、 高 级 编译 器 设计 与 实现 Steven S. Muchnick 机 械 工 业 出 版 社 
说 明 : 这 本 书 被 誉 为 “ 鲸 书 ”， 其 中 涉及 许多 编译 器 设计 中 的 高 级 话题 ， 当 然 ， 它 最 值得 关注 的 就 是 优化 技术 。 


|9:5 实践 与 思 


1. 请 读者 尝试 使 用 图 着 色 算 法 完善 Neo Pascal 的 寄存 器 分 配 机 制 。 
2. 简 述 指令 调度 的 意义 与 基本 思想 ， 并 举例 说 明 其 在 i386 体系 结构 中 的 应 用 。 


9.6 大 师 风 采 一 一 Peter Naur 


Peter Naur: 丹麦 著名 计算 机 科学 家 。1928 年 10 月 25 日 出 生 于 丹麦 。 他 于 1949 年 从 
哥本哈根 大 学 获得 天 文学 硕士 学 位 ，1957 年 获得 了 天 文学 博士 学 位 。1959 年 ，Naur 加 盟 丹 
麦 第 一 个 计算 机 公司 一 一 Regnecentralen， 并 且 领 导 了 Algol 60 语言 的 定义 。1969 年 ，Naur 
成 为 哥本哈根 大 学 的 教授 ， 直 到 1998 年 退休 。Naur 是 著名 的 BNF 范式 的 发 明 者 之 一 。 

Naur 提出 的 BNF 范式 为 程序 设计 语言 研究 及 编译 技术 的 发 展 芮 定 了 基础 ， 他 也 因此 获 
得 了 2005 年 图 灵 奖 。 除 了 程序 设计 语言 方面 的 成 果 ，Naur 在 软件 工程 、 算 法 设计 等 领域 也 
有 杰出 的 成 就 。 即 便 如 此 ，Naur 却 是 一 个 非常 谦虚 的 人 ， 他 反对 将 他 与 BNF 联系 在 一 起 ， 
而 更 愿意 将 该 成 果 归 功 于 Backus。 
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第 10 章 GCC 内 核 与 现代 编译 技术 概述 


Some programming languages manage to absorb change, but withstand progress. 


10.1 编译 技术 的 现状 及 发 展 


——Alan Jay Perlis 


在 前 面 的 章节 中 ， 笔 者 已 经 详细 曾 述 了 Neo Pascal 设计 与 实现 的 相关 话题 。 通 过 本 书 的 


学 习 ， 相 信 读 者 对 构造 一 个 实际 编译 器 的 过 程 应 该 有 所 了 解 。 从 实践 的 角度 而 言 ， 设 计 一 个 
完整 编译 器 可 能 远 比 学 习 枯燥 的 编译 原理 课程 有 趣 得 多 。 当 然 ， 在 此 过 程 中 ， 设 计 者 所 享受 
的 成 就 感 也 不 是 一 门 考试 成 绩 所 能 替代 的 。 由 于 撰写 本 书 的 目的 并 不 在 于 讨论 太 多 关于 编译 


理论 的 话题 ， 因 此 ， 也 无 法 保证 读者 通过 阅读 本 书 就 足以 从 容 应 对 编译 原理 的 考试 。 不 过 ， 


笔者 坚信 ， 通 过 本 书 的 阅读 ， 读 者 对 编译 器 乃至 系统 软件 的 设计 与 实现 一 定 会 有 新 的 认识 与 


提高 ， 这 可 能 是 编译 原理 课程 学 习 无 法 达到 的 。 在 庆幸 的 同时 ， 新 的 征 


程 才刚 刚 开 始 。 对 于 


计算 机 科学 的 一 个 核心 领域 而 言 ， 本 书 所 涉及 的 话题 只 是 冰山 一 角 而 已 。 


在 国内 ， 由 于 计算 机 基础 学 科 相 对 薄弱 ， 人 们 通常 更 愿意 投身 于 应 用 领域 的 研究 ， 编 译 
技术 并 不 太 受 到 人 们 的 关注 ， 因 此 ， 基 于 这 方面 的 研究 成 果 也 相对 较 少 。 除 了 早期 一 些 大 型 


机 的 Fortran、Algol 编译 器 之 外 ， 并 没有 真正 的 产品 级 编译 器 ， 这 不 得 不 说 是 一 种 遗 贼 。 本 


书 的 目的 就 是 引领 更 多 有 志 之 士 踏 上 编译 器 设计 这 片 神奇 的 土地 。 


有 人 认为 ， 编 译 技术 已 经 成 熟 ， 继 续 研 究 是 没有 意义 的 。 对 此 ， 笔 者 并 不 灶 同 ， 任 何 一 


门 学 科研 究 都 是 永 无 止 尽 的 。 在 本 书 剩余 的 篇 幅 中 ， 笔 者 将 涉及 一 些 现代 编译 技术 的 话题 。 
下 面 就 针对 各 领域 的 现状 与 发 展 趋势 作 简单 介绍 ， 以 便 读 者 了 解 发 展 与 努力 的 方向 。 当 然 ， 


有 些 看 法 纯 属 笔者 个 人 观点 ， 仅 供 参 考 。 
在 前 端 技 术 中 ， 自 动 生成 技术 、IR 设计 仍 将 是 最 炙手可热 的 话题 。 


从 20 世纪 六 七 十 年 代 至 今 ， 前 端 自动 生成 技术 一 直 是 人 们 努力 的 方向 之 一 ， 即 使 目前 
还 只 局 限于 词法 分 析 器 与 语法 分 析 嚣 领域。 以 前 有 人 甚至 认为 完全 依赖 于 计算 机 实现 前 端的 


虽然 目前 无 法 证 明 这 种 观点 的 正确 性 ， 


自动 生成 是 一 个 可 遇 而 不 可 求 的 理想 状态 ， 在 很 多 人 看 来 ， 这 种 猜测 并 非 完 全 是 无 稽 之 谈 。 
E， 但 是， 解决 这 一 难题 同样 是 非常 困难 的 。 经 过 了 数 十 


年 探索 之 后 ， 试 图 让 计算 机 自动 构造 语义 分 析 器 的 目标 仍然 很 难 实现 。 基 于 属性 文法 与 语法 


制导 实现 前 端 仍然 是 绝 大 多 数 编译 器 设计 者 的 选择 ， 这 不 得 不 说 是 一 


在 本 章 中 ， 笔 者 将 介绍 一 下 RTL， 让 读者 体会 经 典 IR 的 魅力 所 在 。 
在 后 端 技术 中 ， 优 化 、 新 型 编译 器 实现 将 是 未 来 的 研究 热点 。 


遗憾 。 

除 此 之 外 ，IR 设计 也 是 前 端 研究 的 一 个 热点 。 关 于 IR 的 评价 ， 笔 者 已 经 在 前 面 详细 阐 
述 了 。 昌 然 人 们 并 不 奢求 获得 所 谓 的 “最 优 ”IR 形式 ， 但 不 可 否认 的 是 IR 仍然 是 设计 者 津 
津 乐 道 的 话题 之 一 。 当 然 ， 这 种 研究 还 是 有 价值 的 ， 任 何 基 于 IR 的 精 雕 细 溺 都 是 值得 的 。 


自 编译 技术 诞生 之 日 起 ， 关 于 优化 的 研究 始终 没有 停息 ， 当 然 ， 这 个 过 程 同样 将 延续 至 


未 来 。 原 因 非 常 简单 ， 除 非 编 译 器 生成 代码 的 质量 能 与 最 高 效 的 手工 代码 媲美 ， 否 则 优化 技 


5 题 。 在 未 来 一 段 时 期 内 ， 优 化 技术 可 能 有 以 下 几 个 于 


术 将 是 一 个 永 : 


豆 的 计 


1) 过 程 间 分 析 、 
多 式 将 被 越 来 越 多 
| 于 整个 过 程 


2) SSA 
算法 作 


别名 分 析 将 是 两 个 热点 。 
的 优化 算法 采用 ， 


o 
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3) 


5) 针对 和 仍 入 式 目 
由 于 本 书 并 非 以 介 


随 着 并 行 技术 的 发 展 ， 并 行 编译 的 优化 ] 
4) 高 速 缓存 优化 、 数 据 依赖 分 析 、 软 流水 


其 次 ， 新 型 


单 介绍 。 


| 10.2 GCC 内 核 分 析 


10.2.1 


简单 介绍 。 事 实 上 ， 


的 。 据 笔者 所 知 ， 除 了 GN 


GCC 的 基本 结 


GCC 的 大 名 ， 相 信 已 经 不 必 再 解释 。 
试图 详尽 解释 GCC 是 一 项 非常 庞大 的 工程 ， 


标 机 的 空间 优化 技术 将 是 值得 关注 
优化 技术 为 主 ， 因 此 ， 笔 者 不 打 
ij 译 器 设计 相关 的 技术 也 是 值得 关注 的 ， 计 
译 技术 、 动 态 编译 技术 等 丰 


要 的 发 展 趋势 : 


其 主要 优点 就 是 允许 原来 针对 局 部 的 优化 


技术 将 是 未 来 十 年 内 一 个 重要 的 下 
技术 也 将 取得 显著 的 成 果 。 
的 焦点 。 


究 领 域 。 在 本 章 中 ， 笔 者 将 对 动态 纺 


籍 。 不 过 ， 对 有 志 于 从 事 绢 


少 的 。 这 里 ， 


就 GCC 内 核 层 而 言 ， 
GENERIC 是 一 种 前 端 代 
因此 ，GCC 


间 是 存在 差异 的 ， 
GENERIC。 


1， 而 


完 领 域 。 


在 本 章 中 深入 讨论 有 关 优 化 的 话题 。 
FE 要 包括 并 行 编译 技术 、 岁 入 式 编 
译 技术 及 并 行 编译 技术 作 简 


在 本 小 节 中 ， 笔 者 想 针对 GCC 的 一 些 内 核实 现 作 
或 者 说 这 可 能 是 无 法 实现 
U 的 官方 内 核 白 皮 书 之 外 ， 目 前 尚 无 一 本 关于 GCC 内 核实 现 的 书 
i 译 器 设计 的 专业 人 员 而 言 ， 深 入 学 习 GCC 源 代码 可 能 是 必 不 可 
笔者 仍然 想 对 GCC 的 内 核 稍 作 介绍 。 
整个 编译 过 程 主要 应 月 


有 了 三 种 下 形式 : GENERIC、GIMPLE、RTL。 
E 式 。 由 于 GCC 支持 的 前 端 多 达 数 十 


种 语言 机 制 之 


需要 使 用 一 种 语言 无 关 的 IR 形式 表示 前 端的 输出 ， 这 就 是 


而 GIMPLE 与 RTL 都 是 后 端 IR 形式 ， 它 们 更 多 关注 的 是 优化 与 代码 生成 。 


事实 上 ，GIMPLE 就 是 一 种 较 低级 的 AST 


区 式 ， 当 然 ， 比 普通 的 AST 存在 更 多 限制 与 


约束 。 基 于 GIMPLE 实现 的 优化 比较 多 ， 如 常量 传播 、 宛 余 删除 等 。 在 GCC 中 ， 基 于 


GIMPLE 实现 的 优化 也 称 关 


“SSA 树 优化 ”在 前 面 的 章节 中 ， 并 没有 提 到 “SSA” 这 一 名 


词 ， 实 际 上 ， 对 于 初学 者 而 言 ，SSA 的 话题 有 一 定 的 难度 。 不 过 ， 简 单 了 解 一 下 这 个 名 词 的 


基本 含义 应 该 并 不 困难 。 关 于 SSA 的 话题 ， 笔 者 将 在 10.2.4 节 中 困 述 。 与 GENERIC 相 比 ， 


GIMPLE 似乎 显得 更 规范 ， 更 适 


于 生成 RTL。 


与 GIMPLE 相 比 ，RTL (register transfer language) 从 名 字 上 看 ， 显 然 是 一 种 更 低级 的 


IR 


一 种 线性 IR 形式 是 毋庸 置疑 的 。GCC 的 编译 过 程 如 图 


区 式 ， 因 为 它 所 关注 
认为 这 种 观点 还 是 有 


GIMPLE、RTIL 等 有 耻 形式 只 是 


同 的 优化 及 代码 生成 器 的 需求 。 


一 个 统称 ， 


是 寄存 器 传输 相关 的 描述 。 有 人 认为 它 就 是 一 
些 牵 强 的 ， 毕 竟 RTL 与 普通 的 三 地 址 代码 有 很 大 差 


三 地 址 代码 ， 笔 者 
异 。 当 然 ，RTL 是 


10-1 所 示 。 值 得 汶 


意 的 是 ， 这 里 


事实 上 ， 它 们 还 存在 多 种 级 别 的 变 体 ， 以 应 对 不 
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B ER i 
罗 、 编译 器 设计 之 路 
ee 


下 面 ， 笔 者 将 从 IR 设计 的 
简单 介绍 一 下 
GENERIC、GIMPLE 及 RITL 的 
相关 话题 ， 以 便 读 者 了 解 与 学 习 
经 典 编译 器 的 及 设计 经 验 。 


观点 着 手 ， 


10.2.2 GENERIC 


GENERIC 的 设计 目标 就 是 
将 基于 源 语言 书写 的 代码 描述 成 


SSA 树 的 优化 器 
多 式 ， 以 便 针 


源 语言 转化 为 GENERIC 


ERIC 


GIMRLE 生成 器 ， 也 称 为 “Gimplify” 


种 与 语言 无 关 的 
对 不 同 的 前 端 实现 都 能 得 到 一 个 RTL 优化 器 、 代 码 生成 器 
相对 独立 的 下 形式 。 这 种 形式 ASM 

的 描述 能 力 必须 是 充分 的 ， 否 则 


等 价 转换 将 无 从 谈 起 。 当 然 ， 是 否 将 语句 描述 成 树 的 形式 在 学 术 界 是 存在 争议 的 。 


早期 编译 器 设计 中 ， 人 们 并 不 提倡 将 语句 描述 成 树 的 形式 ， 更 多 地 只 是 将 表达 式 翻 译 成 


AST 形式 。 原 因 


主要 是 由 于 这 种 以 描述 表达 式 主 为 的 AST 的 实现 代价 较 小 。 然 而 ， 在 


GENERIC 中 ， 语 句 通常 被 视 作 没有 返回 值 的 表达 式 ， 依 此 即 可 将 其 描述 成 AST， 也 就 是 一 
个 完整 的 函数 将 以 一 个 AST 的 形式 存在 。 通 常 ， 基 于 GCC 前 端 源 语言 的 扩展 都 只 需 实现 到 
GENERIC 即 可 ， 而 优化 、 代 码 生 成 都 不 需要 考虑 太 多 。 

10.2.3 GIMPLE 


从 结构 上 来 看 ，GIMPLE 是 GENERIC 的 一 种 较 低级 的 子 集 形式 。 最 初 ，GIMPLE 受到 了 
大 学 的 一 个 编译 器 项 目 ) 的 SIMPLE 工 的 影响 。 不 过 ， 最 好 不 要 将 GIMPLE 


McCAT (McGill 


存 表达 式 的 中 


GIMPLE 是 以 函 


理解 成 一 种 普通 的 AST， 因 为 它 已 经 具备 了 一 些 线性 IR 的 特性 了 ， 例 如 ， 它 使 用 临时 变量 保 


日 1 和 士 转 
司 结 果 ， 


这 种 做 法 主要 应 用 于 三 地 址 码 ， 而 AST 中 是 很 少见 的 。 
数 为 单位 描述 的 。 通 常 ， 并 不 建议 将 语言 相关 的 元 素 引 入 GIMPLE 或 


者 后 端 ， 也 就 是 说 ， 


GIMPLE 及 RTL 的 
的 ， 编 译 器 不 得 不 将 它们 传递 到 目标 代码 ， 在 这 种 情况 下 ， 语 言 相关 的 元 素 就 必须 引入 
GIMPLE 及 RTL 了 。 当 然 ， 值 得 注意 的 是 ， 这 种 “长 距离 ”传递 带 来 的 问题 可 能 是 很 多 
的 ， 尤 其 对 于 缺乏 GCC 开发 经 验 的 设计 者 而 言 ， 这 可 能 是 致命 的 。 如 果 设 计 者 试图 将 语言 
相关 的 特性 提供 给 后 端 ， 那 么 ， 就 必须 提供 一 个 LANG HOOKS_GIMPLIFY_EXPR 的 接口 


定义 。 在 GCC 中 ， 虽 然 GIMPLE 的 存储 形式 是 一 种 AST 结构 ， 但 它 通常 是 以 一 种 类 C 程 


前 端 扩展 尽 可 能 应 用 现存 的 与 语言 无 关 的 GENERIC 形式 ， 而 避免 涉及 
修改 。 但 是 ， 这 并 不 是 绝对 的 。 有 时 ， 某 些 源 语言 的 特性 是 非常 奇特 


序 的 形式 输出 的 。 读 者 可 以 使 用 “-fdump-tree-gimple” 参 数 输 出 GIMPLE。 下 面 ， 先 来 看 


一 个 GIMPLE 的 实例 。 


例 10-1 
【 源 程序 】 
main() 


{ 
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【GIMPLE]】 
main () 


{ 
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int nMax=0; unsigned int nMax.0; 
unsigned int Data[10]; int1i.1; 
int i; unsigned int D.2031; 
fori=0;i1< 10;i++) int 1.2; 
if (nMax < Data[i]) unsigned int D.2033; 
nMax = Datalil; int nMax; 
printf("the max number is %d",nMax); unsigned int Data[10]; 
} int i; 
nMax = 0; 
1= 0; 
goto <D2027>; 
<D2020>:; 


nMax.0 = (unsigned int) nMax; 
1.1 = 了 
D.2031 = Data[i.1]; 
if nMax.0 < D.2031) 
{ 

1.2=1; 

D.2033 = Data[i.2]; 

nMax = (int) D.2033; 


else 


{ 


} 
i=i+1; 
<D2027>:; 
if(<=9) 
{ 
goto <D2026>; 


goto <D2028>; 


} 
<D2028>:; 


printf (&"the max number is %d"[0], nMax); 
} 


实际 上 ， 从 本 例 来 看 ，GIMPLE 的 输出 形式 与 先前 提 到 的 C 一 比较 类 似 。 当 然 ， 二 者 也 
存在 不 同 ，C 一 -的 程序 是 符合 标准 C 的 ， 而 GIMPLE 的 输出 只 是 一 种 类 C 代码 而 已 。 下 
面 ， 笔 者 将 结合 实例 详细 阐述 GIMPLE 的 一 些 特性 。 

1. 表达 式 

GIMPLE 的 表达 式 通常 由 一 个 操作 符 与 若干 形式 简单 的 操作 数组 成 ， 这 些 操作 数 必须 是 
右 值 符号 或 寄存 器 变量 。 在 GIMPLE 中 ， 复 杂 的 运算 表达 式 被 处 理 成 若干 简单 的 子 表 达 式 ， 
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并 以 临时 变量 暂 存 中 间 结 果 。 这 种 处 理 与 三 地 址 码 的 生成 比较 相似 ， 如 例 10-2 所 示 。 
例 10-2 表达 式 的 处 理 。 


【 源 程 序 】 【GIMPLE]】 
main() main () 
{ { 
int 1,J,k; int D.2026; 
i=1i+j+k; int i; 
} intj; 
int k; 
D.2026=1+j; 
i= D.2026 + Ki; 


} 


(1) 复杂 对 象 
这 里 主要 指 复杂 对 象 的 寻 址 处 理 ， 如 数组 元 素 、 结 构 字 段 等 。 事 实 上 ， 在 复合 左 值 处 理 


上 ，GIMPLE 并 没有 将 其 中 的 复合 左 值 转换 为 “简单 地 址 ”形式 ， 如 例 10-3 所 示 。 
例 10-3 复杂 对 象 的 处 理 。 


【 源 程 序 】 【GIMPLE]】 
main() main () 
{ { 
struct int D.2027; 
* typedef struct 
int a; { 
int b[10]; int a; 
}c; int b[10]; 
c.b[c.a] = 1; } struct struct 
} { 
int a; 
intb[10]; 
}; 
struct 
{ 
int a; 
int b[ 10]; 
上 ci; 


D.2027 = ¢c.a; 
c.b[D.2027] = 1; 
} 


(2) 条 件 表达 式 
条 件 表达 式 的 处 理 与 if 语句 是 一 样 的 ， 如 例 10-4 所 示 ， 只 是 真 、 假 分 支 的 被 赋值 变 


加 


都 是 相同 的 。 
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例 10-4 条 件 表达 式 的 处 理 。 
【 源 程序 】 【GIMPLE] 
main() main () 
{ { 
int i,j,k; int iftmp.0; 
1=j>1+k?j:k; int D.2027; 
上 int i; 
int j; 
int k; 
D.2027=k+1; 
if (D.2027 <]j) 
{ 
iftmp.0 =j; 
} 
else 
{ 
iftmp.0 = k; 
} 
i= iftmp.0; 
} 
(3) 逻辑 表达 式 
逻辑 表达 式 的 处 理 需要 关注 短路 的 实现 。 不 过 ， 在 GIMPLE 中 ， 人 逻辑 表达 式 并 没有 使 
用 真 、 假 链 翻译 技术 ， 而 使 用 了 数值 翻译 方案 ， 也 就 是 通常 所 说 的 使 用 0、1 表示 true、false 
的 翻译 方案 。 如 例 10-5 所 示 。 
例 10-5 ”逻辑 表达 式 的 处 理 。 
【 源 程序 】 【GIMPLE] 
main() main () 
{ { 
int 1,J,k; int iftmp.0; 
i=] && k; int i; 
和 int j; 
int k; 
if (==0) 
{ 
goto <D2027>; 
} 
else 
{ 
} 
if (k== 0) 
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goto <D2027>; 


iftmp.0= 1; 
goto <D2028>; 
<D2027>:; 
iftmp.0 = 0; 
<D2028>:; 
i= iftmp.0; 

} 


值得 注意 的 是 ， 当 GIMPLE 的 让 结构 缺少 假 分 支 时 ， 以 空 语 名 替代 。 


(4) 去 号 表达 式 

例 10-6 ”逗号 表达 式 将 被 处 理 成 一 系列 简单 的 赋值 语句 。 
【 源 程 序 】 [GIMPLE) 

main() main () 

{ { 

int i,j,k; inti; 
i=]j++ , k++; intj; 

: int k; 
i=j; 
j=j+1; 
k=k+1; 

} 

2. 语句 


对 于 编译 器 而 言 ， 赋 值 语 句 通常 被 视 为 赋值 表达 式 ， 因 此 ， 并 不 是 语句 翻译 所 关注 的 。 
这 里 ， 笔 者 主要 想 阐 述 有 关 控 制 结构 类 语句 的 处 理 。 
(1) 循环 语句 
目前 ，GIMPLE 中 的 循环 语句 都 将 以 goto 跳 转 的 形式 描述 ， 如 例 10-7 所 示 。 
例 10-7 循环 语句 的 处 理 。 


【 源 程 序 】 [GIMPLE]) 
main() main () 
{ { 
int jj; int i; 
for(i= 0;1< 10;i++) int j; 
j 一 j 十 证 
} i=0 
goto <D2026>; 
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<D2025>:; 
j=j+i; 
1=1+1; 
<D2020>:; 
if (1<=9) 
{ 
goto <D2025>; 


else 
{ 
goto <D2027>; 
} 
<D2027>:; 
} 
(2) 选择 语句 


选择 语句 都 是 以 goto 跳 转 形 式 描述 的 。 不 过 ， 当 条 件 表达 式 作用 于 选择 语句 时 ， 短 路 
问题 是 值得 注意 的 ， 如 例 10-8 所 示 。 而 例 10-9 则 是 一 个 switch 结构 的 翻译 实例 。 
例 10-8 于 语句 的 处 理 。 


【 源 程序 】 【GIMPLE]】 

main() main () 
{ { 

int ij; int i; 

if (i && ji) intj; 

1= 1; 
} if(i=—=0) 
{ 
goto <D2025>; 


else 


{ 


} 
if 0 !=0) 
{ 
goto <D2026>; 


else 
{ 
goto <D2023>; 
} 
<D2025>:; 
if (i!=0) 
{ 
goto <D2026>; 
} 
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FP， 读者 应 该 特别 注 
此 ， 没 


在 本 例 上 
案 处 理 布尔 表达 式 ， 因 
常 经 典 的 方案 ， 有 兴 
度 ， 会 令 一 些 初学 者 望而却步 。 


FE 意 真 、 假 链 的 翻译 机 


开 的 读者 可 以 参考 “ 龙 书 ”相关 章节 。 不 过 ， 这 种 翻译 方案 有 一 定 难 


else 
{ 
goto <D2027>; 
} 
<D2026>:; 
i= 1; 
<D2027>:; 
} 


央 。 由 于 Neo Pascal 使 用 了 数值 翻译 方 
真 、 假 链 是 一 种 非 


| 


涉及 这 个 话题 。 在 布尔 表达 式 的 翻译 


例 10-9 
【 源 程序 】 


main() 
{ 
int 1; 
switch (1) 
{ 
case 1:1= 1;break; 
case 3:1= 2;break; 
case 2:1= 3;break; 
1 
3 


} 


switch 语句 的 处 理 。 


[GIMPLE] 
main () 
{ 
int i; 
switch (1) 
{ 
case 1: goto <D2023>; 
case 2: goto <D2028>; 
case 3: goto <D2027>; 
default : goto <D2029>; 


} 


<D2025>:; 

i= 1; 

goto <D2020>; 
<D2027>:; 

i1= 2; 

goto <D2020>; 
<D2028>:; 

1= 3; 

goto <D2020>; 
<D2029>:; 
<D2026>:; 

} 


特别 注意 的 是 ，switch 的 跳 转 表 是 升序 排列 的 ， 这 样 可 以 避免 许多 不 必要 的 麻烦 。 


(3) 跳 转 语句 


跳 转 语句 主要 指 的 就 是 goto 及 retum， 如 例 10-10 所 示 。 


例 10-10” 跳 转 语句 的 处 理 。 


日 


【 源 程序 】 【GIMPLE]】 
main() main () 
{ { 
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goto Ll; int D.2024; 
return 1; void L1 = <<< error >>>; 
Ll: 
return 2; goto Ll; 
} D.2024= 1; 
return D.2024; 
Lb: 
D.2024 = 2; 
return D.2024; 
} 


(4) 异常 处 到 
在 较 高 级 的 GIMPLE 中 ， 异 常 处 理 是 以 try 语句 形式 出 现 的 。 然 而 在 较 低 级 的 GIMPLE 
中 ， 异 常 处 理 最 终 被 解释 为 goto 跳 转 。 

3. GIMPLE 文法 的 框架 

最 后 ， 笔 者 给 出 一 份 摘自 《GNU Compiler Collection Internals》 的 GIMPLE 文法 框架 ， 
以 便 读者 对 GIMPLE 的 形式 有 更 深刻 的 理解 。 

function :FUNCTION DECL 
DECL SAVED TREE -> compound-stmt 


FE 


compound-stmt: STATEMENT _LIST 


members -> stmt 


stmt : block 
if-stmt 
switch-stmt 
goto-stmt 
return-stmt 
resx-stmt 
label-stmt 
try-stmt 
modify-stmt 
call-stmt 


block :BIND EXPR 
BIND EXPR VARS -> chain of DECLs 
BIND EXPR BLOCK -> BLOCK 
BIND EXPR BODY -> compound-stmt 


if-stmt :COND EXPR 
op0 -> condition 
op1 -> compound-stmt 
op2 -> compound-stmt 


Switch-stmt : SWITCH EXPR 
op0 -> val 
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opl -> NULL 

op2 -> TREE VEC of CASE LABEL EXPRs 
The CASE LABEL EXPRSs are sorted by CASE LOW, 
and default is last. 


goto-stmt :GOTO EXPR 
op0 -> LABEL DECL | val 


return-stmt : RETURN EXPR 
op0 -> return-value 


return-value : NULL 
|RESULT DECL 
| MODIFY_ EXPR 
op0 -> RESULT DECL 
opl1 -> lhs 


resx-stmt :RESX EXPR 


label-stmt :LABEL EXPR 
op0 -> LABEL DECL 


try-stmt :TRY CATCH EXPR 
op0 -> compound-stmt 
op1 -> handler 
| TRY_FINALLY EXPR 
op0 -> compound-stmt 
opl1 -> compound-stmt 


handler :catch-seq 
| EH FILTER EXPR 
| compound-stmt 


catch-seq :STATEMENT LIST 
members -> CATCH EXPR 


modify-stmt : MODIFY EXPR 
op0 -> lhs 
opl ->rhs 


call-stmt :CALL EXPR 
op0 -> val | OBJ_TYPE REF 
op1 -> call-arg-list 
call-arg-list: TREE_LIST 
members -> lhs | CONST 
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addr-expr-arg: ID 
| compref 


addressable : addr-expr-arg 
| indirectref 


with-size-arg: addressable 
| call-stmt 


indirectref : INDIRECT_REF 
op0 -> val 


lhs : addressable 
| bitfieldref 
| WITH SIZE EXPR 
op0 -> with-size-arg 
opl -> val 


min-lval :ID 
| indirectref 


bitfieldref : BIT_FIELD_REF 
op0 -> inner-compref 
opl -> CONST 
op2 -> val 


compref ~ :inner-compref 
| TARGET MEM_ REF 

op0 -> ID 
opl1 -> val 
op2 -> val 
op3 -> CONSTI 
op4 -> CONST 

| REALPART EXPR 
op0 -> inner-compref 

|IMAGPART EXPR 


op0 -> inner-compref 


inner-compref: min-lval 
| COMPONENT REF 
op0 -> inner-compref 
opl1 -> FIELD_DECL 
op2 -> val 
| ARRAY REF 


op0 -> inner-compref 


第 10 和 党 
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opl1 -> val 
op2 -> val 
op3 -> val 
| ARRAY RANGE REF 
op0 -> inner-compref 
opl -> val 
op2 -> val 
op3 -> val 
| VIEW_CONVERT EXPR 


op0 -> inner-compref 


condition :val 
| RELOP 
op0 -> val 
opl1 -> val 
val :ID 
invariant ADDR EXPR 
op0 -> addr-expr-arg 
CONST 
rhs :lhs 
CONST 
call-stmt 
ADDR EXPR 
op0 -> addr-expr-arg 
UNOP 
op0 -> val 
BINOP 
op0 -> val 
opl1 -> val 
RELOP 
op0 -> val 
opl -> val 
|COND EXPR 
op0 -> condition 
opl1 -> val 
op2 -> val 
10.2.4 SSA 


在 现代 编译 技术 中 ，SSA 是 一 个 不 得 不 


可 能 并 不 太 适 合 。 不 过 ， 笔 者 觉得 领略 一 下 
不 打算 讨论 基于 SSA 的 优化 技术 ， 只 想 结合 


形式 。 


提 及 的 话题 。 对 于 初学 者 而 言 ， 深 入 讨论 SSA 
SSA 的 魅力 还 是 非常 有 必要 的 。 这 里 ， 笔 者 并 
GCC 的 实现 ， 简 单 介 绍 一 下 SSA 的 基本 概念 与 


1991 年 ， 在 R. Cytron、J. Ferrante、B. Rosen、M. Wegman、K. Zadeck 撰写 的 《Efficiently 
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Computing Static Single Assignment Form and Control Dependence Graph》 一 文中 首先 提出 了 
SSA (static single assignment form) 的 概念 。 因 此 ， 与 其 他 IR 方案 相 比 ，SSA 是 相对 较 新 的 
IR 形式 。 所 谓 SSA 就 是 指 一 个 函数 内 每 个 被 赋值 的 变量 只 存在 一 次 赋值 ， 那 么 ， 这 个 函数 
满足 SSA 的 形式 。SSA 的 形式 有 效 地 将 程序 中 运算 的 值 与 它们 的 存储 位 置 分 离 ， 对 数据 流 
分 析 及 某 些 优化 算法 的 实现 是 有 利 的 ， 例 如 ， 常 量 传播 、 值 编号 、 元 余 删除 、 强 度 削 弱 等 。 
事实 上 ， 真 正 满足 SSA 形式 的 实例 几乎 是 不 存在 的 ， 也 就 是 说 ， 在 实际 程序 中 对 一 个 
变量 多 次 赋值 的 情况 是 不 可 避免 的 。 那 么 ， 如 何 将 普通 的 程序 转换 成 SSA 的 形式 呢 ? 
上 ， 当 需要 对 某 个 变量 进行 多 次 赋值 时 ， 编 译 器 会 为 其 生成 该 变量 的 新 副本 。 当 然 ， 这 些 关 
于 同一 个 变量 的 副本 集合 最 终 仍 然 会 被 合并 。 在 GCC 中 ，SSA 是 基于 GIMPLE 实现 的 ， 可 
以 使 用 “-fdump-tree-ssa” 将 程序 的 ssa 形式 输出 。 下 面 ， 笔 者 就 来 举 一 个 SSA 的 实例 ， 以 
便 读者 理解 。 
例 10-11 SSA 实例 分 析 。 


J 
ly 
将 一 


【 源 程 序 】 【SSA]】 
main() main () 
{ { 
int X,y,2; int Z; 
x=1; int y; 
1f (z>3) int x; 
{ 
x=1; <bb 2>: 
1f (z>2) x 2=1; 
y=X+1; if(z 3(D)> 3) 
else goto <bb 3>; 
goto Ll; else 
} goto <bb 6>; 
else 
X=2; <bb 3>: 
x 4=1; 
X=X-3 if(z 3(D)>2) 
X=4; goto <bb 4>; 
2Z=X+7; else 
goto <bb S>; 
<bb 4>: 
y 5=x 4+1; 
goto <bb 7> (L1); 
<bb $5>: 
goto <bb 7> (L1); 
<bb 6>: 


x 6=2; 


编译 器 设计 之 路 


分 析 本 例 后 ， 不 难 发 现 ， 


入 口 处 (例如 ， 标 号 Ll 处 ) 使 月 


#x 1=PHI<x 4(5), x 4(4), x 6(6)> 


L1l: 


X 7=X 


x 8=4; 


1 十 -3; 


Z 9=xX 8+7; 


return; 


} 
SSA 的 转换 就 是 为 每 一 个 赋值 的 变量 


里 市 


带 上 一 个 下 标 ， 并 在 汇合 


一 个 PHI 函数 《在 书面 资料 上 通常 写作 “$”)， 以 标识 对 一 


个 变量 的 多 次 赋值 形式 。 每 个 PHI 函数 的 参数 个 数 与 其 所 处 点 的 关于 该 变量 的 版 本 个 数 一 


致 。 值 得 注意 的 是 ， 本 例 中 所 有 的 被 


基本 要 求 。 然 而 ， 读 者 不 要 理 


并 没有 对 引用 的 次 数 作 限制 ， 


SSA 的 形式 对 于 优化 是 


解 成 SSA 中 的 所 有 变量 只 存在 一 次 被 引 


在 本 例 中 ，z_3 就 被 多 次 引用 了 。 


武 值 变量 只 可 能 存在 一 次 被 赋值 的 情形 ， 这 是 SSA 的 


的 ; 情况 ， 显然 ， SSA 


E 常 有 利 的 ， 其 中 ， 最 令 人 满意 的 是 ， 


内 局 部 优化 可 以 很 方便 地 被 移植 到 过 程 内 使 用 。 当 然 ， 笔 者 对 这 


趣 的 读者 可 以 参考 《编译 器 工程 》 及 《高 级 编译 器 设计 》。 
在 处 理 完 成 后 ， 编 译 器 最 终 还 会 将 SSA 的 形式 还 原 到 原始 状态 。 实 际 上 ， 这 个 过 程 就 


A 


EE 


F 多 基于 SSA 设计 的 块 


这 个 话题 就 不 再 展开 了 ， 有 兴 


需要 删除 PHI 函数 ， 因 为 它们 只 是 一 个 形式 上 的 工具 而 已 ，3 II ]。 这 里 ， 必 
须 明确 一 点 ，SSA 中 的 程序 赋值 个 数 通 常会 比 原 始 形式 的 赋值 个 数 多 一 


倍 左 右 。 不 过 ，SSA 的 优化 效果 较 好 ， 因 此 这 种 影响 并 不 太 明 显 。 


10.2.5 ”RTL 概述 


与 GIMPLE 相 比 ， 即 将 介 
RTL 完成 的 。 在 GIMPLE 被 引入 GCC 之 前 ， 


GCC 内 核 中 最 重要 的 RTL 是 
RTL 是 一 种 线性 结构 的 


Lisp 的 lists 结构 ， 它 也 有 两 种 形式 ， 即 内 部 形 开 


值得 读者 深入 学 习 的 。 


一 般 是 1.3 一 3.8 


绍 的 RTL 名 气 要 大 得 多 。 在 GCC 中 ， 大 多 数 工作 都 是 基于 
所 有 的 优化 工作 都 集中 在 RTL 上 进行 。 因 此 ， 


IR， 但 并 不 是 人 们 所 想象 的 三 地 址 码 形式 。RTL 的 灵感 源 于 
与 文本 形式 。 其 中 ， 内 部 形式 是 以 结构 、 指 


针 等 数据 结构 存储 的 ， 主 要 用 了 


GCC 内 部 使 用 与 管理 。 而 文本 形式 则 是 专门 用 于 屏幕 输出 


的 形式 。 这 与 GIMPLE 是 一 样 的 ， 只 不 过 GIMPLE 的 文本 形式 是 一 种 类 似 C 程序 而 已 。 笔 
读者 可 以 使 用 “-fdump-rtl- 


例 10-12 ”RTL 实例 。 
【 源 程 序 】 


main() 


{ 
int Xx,y; 
XX-y,; 
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者 先 举 一 个 例子 ， 以 便 读者 对 RTL 有 感性 认识 。 在 GCC 中， 
all” 参 数 输 出 所 有 的 RTL。 注 意 ， 参 数 中 的 “all” 是 一 个 粒度 选项 ， 也 可 以 根据 实际 需要 设 
置 ， 详 细 的 选项 说 明 请 参考 GCC 网 站 。 
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[RTL) 


;; Function main (main) 
;; Generating RTL for tree basic block 2 
;X=X-y 


(insn 8 6 9 (set (reg:SI 60) 
(mem/c/i:SI (plus:SI (reg/f:SI $54 virtual-stack-vars) 


(const_int -4 [Oxfffffffe])) [0 y+0 S4 A32]) -1 (nil) 


(nil)) 


(insn 9 8 0 (parallel [ 


(set (meny/c/i:SI (plus:SI (reg/f:SI $54 virtual-stack-vars) 
(const_int -8 [Oxfffffff8])) [0 x+0 S4 A32]) 


(minus:SI (mem/c/i:SI (plus:SI (reg/f:SI 54 
virtual-stack-vars) 


(const_int -8 [OxffFFFFF8])) [0 x+0 S4 A32]) 


(reg:SI 60))) 
(clobber (reg:CC 17 flags)) 
]) -1 (nil) 


(expr_list:REG EQUAL (minus:SI (menyc/i:SI (plus:SI (reg/f:SI 54 


virtual-stack-vars) 


(const_int -8 [Oxfffffff8])) [0 x+0 S4 A32]) 


(mem/c/i:SI (plus:SI (reg/f:SI $4 virtual-stack-vars) 


(const_int -4 [0xfffffffc])) [0 y+0 S4 A32])) 


iD)) 


园 于 篇 幅 ， 笔 者 并 没有 给 出 该 源 程序 的 完整 RTL 形式 。 相 对 于 GIMPLE 而 言 ，RTL 的 
形式 似乎 比较 复杂 。 的 确 ， 从 形式 上 而 言 ， 即 使 是 文本 形式 输出 的 RTL 也 不 太 直 观 。 恒 
ee 


然 ， 主 要 原因 还 是 初次 见面 ， 稍 显 生 朴 。 相 信 稍 加 练习 后 ， 这 一 


上 ， 对 于 有 志 于 研究 GCC 内 核 的 读者 而 言 ， 熟 练 阅读 RTL 是 必 不 可 少 的 。 关 于 本 例 民 
含义 ， 暂 不 作 解 释 。 当 阅读 完 本 书后 ， 理 解 本 例 中 的 RTL 应 该 并 不 困难 。 


VTS 


阐述 RIL 的 结构 与 设计 。 


值得 注意 的 是 ， 与 其 他 下 不 同 ，RTL 是 一 种 比较 依赖 于 目标 机 的 设计 方案 。 这 


下 面 ， 征 pe 


全 


标 方 面 的 表现 是 令 人 满意 的 ， 这 恺 怕 是 最 有 力 的 例证 。 
RTL 主要 使 用 了 5 种 对 象 : 表达 式 、 整 数 、 宽 整数 、 字 符 串 、 


向 量 。 

RTL 表达 式 “〈 简 称 为 “RTX2”) 是 一 种 类 似 于 C 语言 表达 式 的 结构 ，RTX 内 部 天 
一 棵 表达 式 树 。 而 RTX 的 文本 形式 是 以 Lisp 的 lists 输出 ， 实 际 上 ， 这 种 形式 与 数 所 
的 广义 表 的 文本 形式 是 一 脉 相 承 的 。RTX 是 RTL 的 核心 ， 也 是 最 复杂 的 部 分 。 


整数 、 宽 整数 也 就 是 普通 的 整数 常量 ， 通 常用 十 进 制 形式 表示 。 其 


的 int， 而 宽 整数 是 一 种 合成 对 象 。 


口 


Pp， 


整数 就 是 C 


结构 中 


事实 


tk 


是 一 种 
非常 重要 的 IR 设计 理念 ， 它 对 传统 的 IR 设计 提出 了 挑战 。 虽 然 在 过 去 的 二 十 年 中 ， 大 多 数 
编译 器 设计 者 对 于 这 种 观点 仍 保持 谨 愤 ， 但 始终 没有 对 RTL 的 能 力 表 示 怀 疑 。RTL 在 可 变 


语 证 


wally 
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ee 


字符 串 的 内 核 与 C 语言 的 字符 指针 是 一 样 的 ， 或 者 说 ，RTL 就 是 参考 char* 实 现 的 。 不 
，RTL 的 字符 串 是 不 会 为 空 值 的 。 如 果 试 图 描述 一 个 空 字符 串 ， 它 将 被 描述 成 一 个 空 指 
， 而 不 是 一 个 指向 空 字符 的 指针 ， 请 读者 仔细 琢磨 其 中 的 差异 。 

向 量 也 就 是 用 于 存储 指向 表达 式 指 针 的 一 维 数组 ， 向 量 通常 被 书写 为 [expl .… expn]， 当 
然 ， 与 数组 类 似 ， 长 度 为 0 的 向 量 是 不 存在 的 。 

完整 的 RTL 就 是 由 这 5 种 对 象 组 合 而 成 的 。 实 际 上 ， 其 中 最 核心 的 就 是 RTX， 其 他 的 
对 象 并 不 复杂 。 下 面 ， 笔 者 将 详细 谈 谈 RTX 的 相关 话题 。 


10.2.6 RTX 


RTX 的 书写 形式 如 下 : 

(RTX 代码 [/ 标 志 1.../ 标 志 nj [: 机 器 模式 ] 操作 数 1 .… 操作 数 n) 

其 中 ，RTX 代码 也 就 是 三 地 址 码 中 的 操作 码 ， 主 要 用 于 描述 该 RTX 的 功能 作用 。 在 
GCC 中 ，RTX 代码 是 在 ttl.def 文件 中 定义 的 ， 是 一 组 类 似 于 枚 举 常 量 的 值 。 在 GCC 中 ， 通 
常 可 以 使 用 GET_ CODECO 和 了 PUT_CODE(CO 宏 来 获取 与 修改 RTX 中 的 代码 值 。 

标志 是 可 选 的 ， 主 要 是 作为 RTX 的 辅助 说 明 。 标 志 是 非常 有 用 的 ， 但 又 是 非常 复 


平 池 


杂 的 


机 器 模式 是 可 选 的 ， 主 要 描述 的 就 是 RTX 的 数据 对 象 的 大 小 。 在 RTL 的 文本 形式 中 ， 
机 器 模式 紧 跟 在 RTX 代码 之 后 ， 其 间 用 冒号 隔 开 。 例 如 ，REG 表达 式 (reg:SI 38)。 关 于 机 
器 模式 的 详细 内 容 将 稍 后 深入 。 
操作 数 通常 是 一 个 指向 另 一 个 对 象 的 指针 ， 根 据 RTX 代码 的 不 同 ， 操 作 数 个 数 是 不 同 
的 。 这 与 三 地 址 码 是 类 似 的 ， 应 该 不 难 理解 。 
1. RTX 代码 的 分 类 
目前 ， 在 rlt.def 文件 中 ， 将 RTX 代码 分 成 如 下 几 类 : 
RTX_OBJ: 实际 的 对 象 ， 如 寄存 器 (reg)、 存 储 单元 (mem、symbol_ref)。 
RTX_CONST_OBJ: 常量 对 象 ， 包 括 一 些 基本 转换 等 ， 如 HGH、ADDRESSOF 等 。 
RTX_COMPARE: 不 满足 交换 律 的 比较 ， 包 括 LE、LT、GE、GT、LEU、LTU、 
GEU，GTU。 
RTX_COMM_COMPARE: 满足 交换 律 的 比较 ， 包 括 EQ、NE、ORDERED 等 。 
RTX UNARY: 单 目 操作 ， 如 NEG、NOT、ABS、 值 扩展 、 整 型 及 浮 点 型 转换 。 
RTX_COMM_ARITH: 满足 交换 律 的 双 目 操作 ， 如 PLUS、AND 等 。 
RTX_BIN_ARITH: 不 满足 交换 律 的 双 目 操作 ， 如 MINUS、DIV、ASHIFTRT 等 。 
RTX _BITFIELD_ OPS: 位 域 操作 ， 通 常 有 三 个 操作 数 。 
RTX _TERNARY: 其 他 的 三 目 操作 ， 目 前 只 支持 IN_THEN_ELSE、VEC_MERGE。 
RTX INSN: 表示 一 个 完整 的 指令 ， 如 INSN、JUMP INSN、CALL INSN 等 。 
RTX_MATCH: 表示 指令 内 的 匹配 对 象 ， 如 MATCH DUP。 通 常 只 存在 于 机 器 描述 中 。 
RTX_AUTOINC: 表示 自 增 的 寻 址 模式 ， 如 POST INC。 
RTX EXTRA : 所 有 其 他 的 RIX 代码 ， 包 括 一 些 用 于 机 器 描述 的 代码 (如 
DEFINE *)、 所 有 描述 副作用 的 代码 (如 SET、USE)、 出 现在 指令 中 的 非 指令 代码 〈 如 
NOTE、CODE LABEL )。 
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2. RTX 格式 描述 
与 三 地 址 码 类 似 ， 不 同 的 RTX 代码 对 其 操作 数 是 有 一 定 限 制 的 。 在 GCC 中 ， 对 此 有 
套 相 对 完整 的 描述 体系 。 例 如 ， 在 rtl.def 中 ， PLUS 的 格式 描述 如 下 : 


DEF RTL EXPR(PLUS, "plus", "ee", RTX COMM ARITH) 


其 中 ， 第 1 项 表示 RTX 代码 ， 第 2 项 是 文本 输出 形式 ， 第 4 项 是 所 属 的 类 别 ， 而 第 3 
项 就 是 用 于 描述 格式 的 。 在 GCC 中 ， 格 式 描述 代码 “e” 就 表示 操作 数 可 以 是 一 个 表达 式 ， 
而 两 个 “e” 就 表示 该 RTX 可 以 且 必须 有 两 个 表达 式 操 作 数 。 
下 面 ， 就 来 看 看 常用 的 RTX 格式 描述 代码 的 含义 : 
e : 表达 式 〈 实 际 上 为 指向 表达 式 的 指针 )。 
: 整数 。 
: 宽 整 数 。 


I 


王 ， 


zz 方 夺 中 


W 

S : 子 付 中 。 

E : 表达 式 向 量 。 
u 

n 

S: 


: 除了 在 调试 信息 中 不 同 ,“u” 等 价 于 “e”， 表 示 指 向 指令 的 指针 。 
: 除了 在 调试 信息 中 不 同 ,“n” 等 价 于 “i”， 表 示 note 指令 行 号 或 代码 编号 。 
说 明 一 个 可 选 字符 串 。 在 内 部 表示 的 RTL 对 象 里 ,“S” 等 价 于 “s”。 但 当 从 机 器 
描述 文件 中 读 出 一 个 对 象 时 ， 这 个 操作 数 的 值 可 能 被 省 略 ， 被 省 略 的 字符 串 被 认为 是 空 串 。 
V : 说 明 一 个 可 选 向 量 。 在 内 部 表示 的 RTL 对 象 里 ， 它 等 价 于 “E”。 但 当 从 机 器 描述 
文件 中 读 出 一 个 对 象 时 ， 其 值 可 能 被 省 略 ， 被 省 略 的 向 量 相 当 于 没有 元 素 的 向 量 。 
B : 一 个 指向 基本 块 结 构 的 指针 。 
0 : 一 个 内 容 不 适合 任何 正常 类 型 的 跟踪 形式 。“0” 跟 踪 信 息 在 RTL 调试 输出 中 不 显 
示 ， 通 常 在 编译 器 中 有 某 些 特殊 作用 。 
在 GCC 中 ， 可 以 使 用 以 下 几 个 宏 来 获取 一 些 与 RTX 代码 相关 的 信息 。 
GET_RTX_LENGTH(code): 获取 给 定 RTX 代码 的 操作 数 个 数 。 
GET_RTX_FORMAT(code): 获取 给 定 RTX 代码 的 格式 字符 串 。 
GET_ RTX _ CLASS(code): 获取 给 定 RTX 代码 所 属 的 类 别 的 缩写 形式 〈 一 个 字符 表示 )。 
关于 各 个 RTX 代码 的 格式 描述 就 不 再 详细 列举 了 ， 读 者 可 以 参考 rtl.def 文件 。 
3. RTX 机 器 模式 
机 器 模式 主要 用 于 描述 数据 对 象 的 大 小 及 其 表示 。 从 实现 上 而 言 ， 机 器 模式 表示 成 枚 举 


类 型 enum machine mode， 这 个 类 型 的 声明 在 machmode.def 文件 中 。 例 如 : 


INT_ MODE (QL 1); 


这 是 一 个 单字 节 整 型 模式 的 描述 。“QI” 的 含义 就 是 “Quarter-Integer”。 在 GCC 的 整 型 
模式 中 ， 通 常 是 以 4 字 节 int 作为 基准 进行 描述 。 例 如 ,“HI” 即 表示 “HalfInteger”， 也 就 
是 两 字 节 型 。 而 第 2 项 “1” 则 表示 其 所 需 的 字 节 数 ， 这 是 依赖 于 INT_ MODE 宏 的 定义 。 在 
machmode.def 文件 中 ， 关 于 INT_MODE 宏 的 描述 为 “INT MODE (MODE, BYTESIZE);”。 
再 如 : 


FLOAT MODE (SF, 4, ieee_single_format); 
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FLOAT MODE (DF, 8, ieee_ double format); 


这 两 个 模式 分 别 是 单 精度 浮 点 型 及 双 精 度 浮 点 型 的 描述 ， 其 


它 
们 所 采用 的 格式 标准 。 在 machmode.def 文件 中 ， 关 于 FLOAT MODE 宏 的 描述 为 


“FLOAT MODE (MODE, BYTESIZE, FORMAT); ”。 


中 ， 第 3 项 所 描述 的 就 是 


根据 machmode.def 文件 的 注释 ， 可 以 非常 容易 地 理解 机 器 模式 相关 声明 的 含义 。 这 


里 ， 笔 者 不 再 举例 说 明了 。 在 RTL 中 ， 机 器 模式 是 可 选 的 ， 却 是 非常 重要 的 。 人 参考 例 10-12 


意 的 是 ， 由 于 GCC 的 目标 


就 不 难 发 现 ， 在 RTL 中 ， 机 器 模式 的 使 用 是 极其 频繁 的 。 值 得 举 


机 不 局 限于 雪 86， 还 包括 向 量 机 、 和 嵌入 式 计算 机 等 ， 因 此 ， 并 3 
持 的 。 
4. RTX 的 标志 


E 所 有 模式 在 i386 中 都 是 支 


一 个 RTX 通常 可 以 包含 若干 标志 ， 应 用 于 一 些 特 殊 的 表达 式 中 ， 对 其 进行 辅助 说 明 。 


在 RTL 内 核 中 ,标志 是 以 位 形式 存储 的 ， 而 访问 则 通过 GCC 定义 的 宏 完 成 。 标 志 是 比较 繁 


琐 的 话题 ， 且 同一 标志 在 不 同 的 表达 式 中 的 含义 是 不 同 的 。 在 RTX 文本 模式 中 ， 标 志 是 紧 
接 在 RTX 后 面 书写 的 ， 通 常 以 “/” 开 头 。 下 面 ， 笔 者 将 详细 说 明 各 标志 的 含义 。 

(1) call。 在 mem 中 ， 置 1 表示 内 存 引用 不 受 限 。 在 RTL 文本 模式 中 ， 记 作 “/c”。 

(2) frame related。 在 insn 或 set 中 ， 置 1 表示 它 是 一 个 函数 的 首部 ， 并 需要 设置 栈 指 
针 。 包 括 重 置 栈 的 指针 、 保 护 现场 寄存 器 等 。 在 介绍 运行 时 刻 环境 时 ， 笔 者 已 经 详细 阐述 了 


相关 理论 与 实现 。 

在 symbol ref 表达 式 中 ， 置 1 表示 引用 的 地 址 是 该 函数 的 字 
在 mem 表达 式 中 ， 置 1 表示 引用 一 个 标准 对 象 。 

在 RTL 文本 模式 中 ， 记 作 “/f”。 


符 申 常量 池 。 


(3) in_ struct。 在 mem 表达 式 中 ， 置 1 表示 引用 的 数据 对 象 依赖 于 一 个 数组 或 结构 ， 置 
0 表示 引用 的 数据 对 象 依赖 于 一 个 标准 类 型 的 变量 。 这 个 标准 对 别名 分 析 是 非常 有 用 的 ， 它 


有 助 于 确定 别名 引用 的 关系 。 


循环 之 外 。 
在 code label 表达 式 中 ， 置 1 表示 该 标号 不 会 被 删除 。 这 主 
的 标号 。 这 种 标号 不 一 定 是 元 余 的 ， 有 可 能 是 分 支 优化 造成 的 。 
在 RIL 文本 模式 中 ， 记 作 “/s”。 


而 言 ， 当 相同 的 寄存 器 被 用 于 传 参 时 ， 不 设置 该 标志 。 
在 symbol ref 表达 式 中 ， 置 1 表示 对 该 符号 弱 引 用 。 这 里 ， 


(weak reference )” 的 概念 。 弱 引用 与 强 引 用 主要 的 区 别 是 在 垃圾 回收 机 制 中 体现 的 。 在 


在 reg 表达 式 中 ， 置 1 表示 该 寄存 器 的 整个 生存 期 被 包含 在 循环 条 件 表达 式 中 。 
在 subreg 表达 式 中 ， 置 1 表示 此 suberg 访问 的 对 象 的 方式 是 由 一 个 宽 方式 提升 而 来 。 
在 label ref 表达 式 中 ， 置 1 表示 所 引用 的 标号 的 定义 点 位 于 包含 此 标号 引用 的 最 内 层 


要 用 于 描述 没有 被 goto 引用 


(4) integrated。 在 insn、insn list、const 中 ， 置 1 表示 该 RTL 是 由 内 联 函 数 产生 的 。 
在 reg 表达 式 中 ， 置 1 表示 此 寄存 器 包含 当前 函数 的 返回 值 。 对 于 用 寄存 器 传 参 的 机 器 


笔者 简单 介绍 一 下 “ 弱 引 用 


Java、.Net 之 类 的 语言 中 ， 被 弱 引 用 的 对 象 仍 然 可 以 被 垃圾 回收 。 弱 引用 机 制 对 有 效 利 用 组 


存 资源 是 积极 的 ， 但 是 弱 引 用 有 时 也 是 危险 的 。 
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在 RTL 文本 模式 中 ， 记 作 “/i”。 

(5) jump。 在 mem 表达 式 中 ， 置 1 表示 当 访 问 一 个 对 象 时 ， 该 mem 的 别名 集合 不 变 。 
在 set 表达 式 中 ， 置 1 表示 是 一 个 返回 。 
在 call insn 中 ， 置 1 表示 一 个 同属 调用 。 这 里 ， 笔 者 简单 介 
。 实 际 上 ， 这 是 一 个 编译 优化 的 情形 ， 如 下 所 示 : 


NSS 


下 “同属 调用 ”的 概 


小 


int aa(int x,int y) 


{ 


return(bb(x+1,y)); 
} 


在 这 个 程序 中 ， 如 果 return 之 前 的 语句 不 会 产生 任何 副作用 ， 那 么 ， 编 译 器 可 以 将 对 aa 
的 调用 直接 处 理 成 对 bb 的 调用 。 这 样 ， 编 译 器 不 必 再 为 aa 分 配 帧 空间 ， 而 只 需 为 bb 分 配 
帧 空间 。 同 属 调用 优化 是 一 种 比较 高 级 的 优化 技术 ， 而 且 算 法 实现 也 较 复 杂 。 
在 RTL 调试 输出 中 ， 此 标志 写成 “/j”。 
(6) unchanging。 在 reg、mem 表达 式 中 ， 置 1 表示 表达 式 的 值 不 变化 。 
在 subreg 表达 式 中 ， 置 1 表示 subreg 访问 的 无 符号 对 象 的 方式 是 由 一 个 宽 方式 提升 
而 来 。 
在 insn、jump_insn 中 ， 置 1 表示 一 个 废弃 的 分 文 。 
在 symbol ref 表达 式 中 ， 置 1 表示 此 符号 引用 函数 常数 池 中 的 地 址 。 
在 call insn、note、expr list 中 ， 置 1 表示 一 个 常数 和 纯 函 数 的 调用 。 
在 RTL 调试 输出 中 ， 此 标志 写成 “/u”。 

(7) used。 通 常 ，used 只 临时 用 在 一 个 函数 的 RTL 生成 完成 之 时 ， 用 于 计算 一 个 表 
达 式 在 指令 中 出 现 的 次 数 。 在 GCC 中 ， 对 于 多 次 出 现 的 表达 式 ， 根 据 结构 共享 规则 将 被 
复制 。 
在 symbol ref 表达 式 中 ， 置 1 表示 符号 的 外 部 说 明 已 输出 。 简 单 地 说 ， 就 是 保证 外 部 
说 明 只 输出 一 次 。 
在 reg 表达 式 中 ， 用 于 重新 编码 叶子 寄存 器 ， 以 保证 每 个 寄存 器 仅 被 重新 编码 一 次 。 

(8) volatile 。 在 mem、asm operands 或 asm input 表达 式 中 ， 若 内 存 引 用 是 易 变 
Cvolatile) 的 ， 则 易 变 内 存 引用 不 能 被 删除 、 归 并 或 重新 排序 。 
在 symbol ref 表达 式 中 ， 它 是 与 具体 机 器 相关 的 标志 。 
在 reg 表达 式 中 ， 置 1 表示 用 户 级 的 变量 值 。 置 0 表示 编译 器 内 部 临时 变量 。 
在 insn 中 ， 置 1 表示 此 指令 被 删除 。 
在 label ref、reg_label 表达 式 中 ， 置 1 表示 引用 一 个 非 局 部 标号 。 
在 RTL 调试 输出 中 ， 写 成 “/v”。 

5. RTX 代码 

前 面 ， 笔 者 已 经 详细 讲述 
将 关注 一 下 RTX 的 代码 。 这 
契机 。 

表 10-1 列 出 了 绝 大 部 分 常用 的 RTX 代码 ， 供 读者 参考 。 


了 RTX 结构 相关 的 话题 ， 包 括 机 器 模式 、 标 志 等 。 下 面 
是 学 习 与 理解 RTL 的 关键 ， 也 是 体会 经 典 编译 器 设计 的 
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编译 器 设计 之 路 


表 10-1 常用 的 RTX 代码 


RTX 表达 式 形式 功能 描述 

(const_int i) 表示 一 个 整 型 值 i 
(const_double:m addr i0 i1) 表示 一 个 浮 点 型 常量 或 一 个 大 整 型 常量 
(const_ fixed:m addr) 表示 一 个 定点 型 常量 
(const_vector:m [x0 x1...]) 表示 一 个 向 量 常量 
(const_string str) 表示 一 个 字符 串 常量 
(Symbol reftmode Symbol) 表示 一 个 数据 段 中 的 汇编 标号 的 值 
(label_ref:mode label) 表示 一 个 代码 段 中 的 汇编 标号 的 值 
(const:m exp) 表示 一 个 汇编 阶段 可 计算 的 常量 
(high:m exp) 表示 一 个 表达 式 的 高 n 位 

ee 当 n<FIRST_PSEUDO_REGISTER 时 ， 表 示 引 用 一 个 物理 寄存 器 
Tegmn) 当 n<FIRST PSEUDO REGISTER 时 ， 表 示 引 用 一 个 逻辑 寄存 器 
(subreg:m reg bytenum) 表示 引 个 机 器 模式 下 的 寄存 器 
(scratch:m) 根据 当前 指令 的 需要 ， 选 取 一 个 寄存 器 
(mem:m addr alias) 表示 引 个 主 存单 元 
(addressof:m reg) 获取 一 个 寄存 器 的 地 址 。 当 然 ， 这 里 主要 指 逻 辑 寄存 器 
(concatm rtx rtx) 将 两 个 RTX 连结 ， 主 要 用 于 声明 、 代 码 生 成 相关 的 RTL 中 ， 不 能 出 现在 指令 链 中 
(concatnm [rtx...] 将 多 个 RTX 连结 ， 主 要 用 于 声明 中 ， 不 能 出 现在 指令 链 中 
(plus:m x y) 两 个 表达 式 相 加 。 主 要 的 差异 在 于 : plus 将 值 的 宽度 置 于 m 中 ， 而 ss_plus、 
(ss_plus:m x y) 分 别 将 最 大 的 有 符号 值 、 无 符号 值 置 于 m 中 
sp) us_plus 分 别 将 最 大 的 有 符号 值 、 无 符号 值 置 于 m 
(lo_ sum:m x y) 将 x 与 y 的 低 n 位 相 加 
(minus:m x y) 
(ss_minus:m x y) 两 个 表达 式 相 减 
(us minus:m x y) 
(compare:m x y) 两 个 表达 式 的 值 比较 
(neg:m x) 
(ss_neg:m x) 将 表达 式 的 值 取 负 
(us neg:m x) 
(mult:m x y) 
(ss_mult:m x y) 两 个 表达 式 的 值 相 乘 
(us_ mult:m x y) 
(vm xy) 两 个 有 符号 表达 式 的 值 相 除 
(SSs_div:mXy) 
WW my) 两 个 无 符号 表达 式 的 值 相 除 
(us div:mxy) 
人 5 两 个 表达 式 的 值 取 模 
(umod:m x y) 
ee 较 两 个 无 符号 表达 式 的 值 ， 返 回 较 大 小》 的 值 
Crna yy) 较 两 个 有 符号 表达 式 的 值 ， 返 回 较 大 小》 的 值 


(smax:m x y) 


(not:m x) 对 表达 式 的 值 取 逻辑 非 

(and:m x y) 对 两 个 表达 式 的 值 取 逻 辑 与 

(ior:m x y) 对 两 个 表达 式 的 值 取 逻辑 或 

(xor:im x y) 对 两 个 表达 式 的 值 取 异 或 

(ashift:m x c) 

(ss_asahift:m x c) 对 表达 式 的 值 算术 左 移 ， 移 位 位 数 取决 于 c 
(us aashift:m x c) 

(lshiftrt:m x c) 对 表达 式 的 值 逻 辑 右 移 ， 移 位 位 数 取 决 于 c 
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( 续 ) 
RTX 表达 式 形式 E 描 
(ashiftrt:m x ¢) 对 表达 式 的 值 算术 右 移 ， 移 位 位 数 取决 于 c 
(rotate:m x ¢) 对 表达 式 的 值 循环 左 移 ， 移 位 位 数 取决 于 c 
(rotatert:m x c) 对 表达 式 的 值 循环 右 移 ， 移 位 位 数 取决 于 c 
(abs:m x) 对 表达 式 的 值 取 绝对 值 
(sqrt:m x) 对 表达 式 的 值 取 平方 根 
(ffs:m x) 对 表达 式 x 的 最 低 有 效 位 加 1 
(clz:m x) 统计 x 首部 置 0 位 的 个 数 
(ctz:m x) 统计 x 尾部 置 0 位 的 个 数 
(popcount:m x) 统计 x 中 置 1 位 的 个 数 
(parity:m x) 统计 x 中 置 1 位 的 个 数 ， 并 将 统计 结果 模 2 
(bswap:m x) 将 x 按 字 节 翻转 
(eq:im x y) 判断 两 个 表达 式 的 值 是 否 相 等 
(ne:m x y) 判断 两 个 表达 式 的 值 是 否 不 等 
(gtmxy) 判断 x 是 否 大 于 y (有 符号 ) 
(gtu:im x y) 判断 x 是 否 大 于 y《〈 无 符号 ) 
(tmxy) 判断 x 是 否 小 于 y( 有 符号 ) 
(tumxy) 判断 x 是 否 小 于 y《〈 无 符号 ) 
(ge:m x y) 判断 x 是 否 大 于 或 等 于 y( 有 符号 ) 
(geu:m x y) 判断 x 是 否 大 于 或 等 于 y (无 符号 ) 
(le:m x y) 判断 x 是 否 小 于 或 等 于 y (有 符号 ) 
(leu:m x y) 判断 x 是 否 小 于 或 等 于 y (无 符号 ) 
(if then_else cond then else) 条 件 表达 式 ， 与 C 语言 的 “?:” 类 似 
(cond [testl valuel...] default) 多 路 条 件 表达 式 ， 与 switch 结构 类 似 ， 但 这 并 不 是 switch 的 翻译 方案 


(sign extract:m loc size pos) 


引用 一 个 按 符号 位 扩 


展 的 位 域 ，loc 


表示 寄存 器 或 字 节 地 址 ，size 表示 位 域 大 小 ， 


引 个 按 0 扩展 的 位 域 ，loc 表示 寄存 器 或 字 节 地 址 ，size 表示 位 域 大 小 ，pos 
(Zero_extract:m loc size pos) ee 
一 表示 位 偏 移 
(vec_merge:m vecl vec2 items) 合并 两 个 向 量 。 哪 些 元 素 合并 取决 于 items 
(vec_select:m vecl section) 选择 部 分 向 量 元 素 
(vec_concat:m vecl vec2) 连接 两 个 向 量 


(vec_duplicate:m vec) 


将 一 个 小 向 量 以 元 素 复 制 的 形式 转换 为 一 


个 大 向 量 


(Sign_extend:m x) 将 x 按 符号 扩展 
(Zero_extend:m x) 将 x 按 0 扩 展 
(float_extend:m x) 浮 点 数 扩 展 

(truncate:m x) 

0 ae 

(float truncate:m x) 

(float:m x) 定点 数 转换 为 有 符号 浮 点 数 
(unsigned float:m x) 定点 数 转换 为 无 符号 浮 点 数 
(fix:m x) 浮 点 数 转换 为 有 符号 定点 数 
(unsigned fix:m x) 浮 点 数 转换 为 无 符号 定点 数 
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性 i 
罗 、 编译 器 设计 之 路 
ee 


RTX 表达 式 形式 


功能 描述 


(fract_convert:m x) 


将 定点 数 、 有 符号 整数 、 
结果 未 定义 


浮 点 数 转换 为 指定 机 器 模式 的 浮 点 数 。 当 发 生 溢出 时 ， 


(sat_fract:m x) 


结果 取 最 大 或 最 小 值 


浮 点 数 转换 为 指定 机 器 模式 的 浮 点 数 。 当 发 生 溢出 时 ， 


(unsigned fract_convert:m x) 


将 定点 数 、 无 符号 整数 、 
结果 未 定义 


浮 点 数 转换 为 指定 机 器 模式 的 浮 点 数 。 当 发 生 溢出 时 ， 


(unsigned sat fract:m x) 


将 定点 数 、 无 符号 整数 、 


学 点 数 转 换 为 指定 机 器 模式 的 浮 点 数 。 当 发 生 洲 出 让 


结果 取 最 大 或 最 小 值 
(set lval x) 将 x 的 值 置 入 lval 中 
(return) 函数 返 匠 
(call function nargs) 数 调 用 ，function 是 一 个 mem 表达 式 ，nargs 用 于 传 参 


(clobber x) 


(use x) 


和 


x 的 值 


函 
存储 或 者 可 能 存储 一 个 不 确定 的 值 到 x 中 
使 


(cond_exec [cond expr]) 


有 条 件 执行 表达 式 。 当 cond 非 零 时 ，expr 执行 ， 和 否则 不 执行 


(Sequence [insns...]) 


指令 序 


内 嵌 汇 编 


(asm input s) 


6. insn 序列 


在 GCC 中 ， 一 个 函数 的 RTL 是 以 一 个 双向 链表 结构 存储 的 ， 称 为 “insn 序列 ”。 而 ] 


体 的 insn 结构 基本 上 就 是 类 似 于 一 条 指令 ，RTX 是 峙 套 ， 但 位 于 “项 层 ” 的 RTL 只 有 


位 


insn， 它 们 以 空 行 隔 开 。 有 些 insn 表示 可 执行 的 指令 ， 有 些 表示 switch 语句 的 分 支 列表 ， 有 


些 则 表示 变量 的 声明 。 


除了 拥有 具体 的 数据 之 外 ， 每 条 insn 都 有 唯一 的 编号 。 通 常 ， 用 户 可 以 通过 一 些 预 定义 
的 宏 来 获取 指定 编号 的 insn 及 其 前 驱 、 后 继 insn。 在 GCC 中 ，insn 可 以 分 为 6 类 : 


insn: 用 于 描述 非 跳 转 及 函数 调用 的 指令 。 表 达 式 序列 通常 是 包含 如 


jump_insn: 用 于 描述 跳 转 的 指令 ， 通 常 与 label ref 表达 式 一 起 使 用 。 
call insn: 用 于 描述 函数 调用 的 指令 。 
code_label: 用 于 描述 标号 的 指令 。 


note: 用 于 描述 一 些 调试 及 声明 信息 。 
pay 


barrier: 置 于 指令 序列 中 ， 使 控制 流 不 能 通过 的 指令 ， 如 exit 等 。 


10.3 ”动态 编译 技术 简介 


10.3.1 动态 编译 技术 基础 


动态 编译 (dynamic compilation ) 技术 的 发 展 历史 不 过 短 短 的 二 十 几 各 


E insn 中 的 。 


FEF。 相信 谁 也 没有 


想到 当年 籍 籍 无 名 的 动态 编译 会 成 为 今天 最 热门 的 研究 领域 之 一 。 目 前 ， 有 关 动 态 编译 技术 
的 讨论 也 仅 限 于 论文 资源 ， 尚 无 书籍 涉及 此 类 话题 。 


实际 上 ， 动 态 编译 技术 并 不 神秘 ， 其 最 初 的 应 用 领域 就 是 程序 移植 。 在 20 


末 ， 随 着 CPU 产业 竞争 的 
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点 ， 大 力 推 广 自己 的 产品 。 除 了 某 些 CPU 的 确 是 结构 兼容 之 外 ， 大 部 分 CPU 都 很 难 做 到 这 
一 点 。 当 然 ， 技 术 并 不 是 唯一 的 原因 ， 商 用 因素 也 是 不 容 忽 视 的 。 那 么 ， 所 谓 的 “兼容 ”又 
是 如 何 做 到 的 呢 ? 事实 上 ， 通 常 的 做 法 就 是 指令 转换 ， 即 把 用 其 他 CPU 指令 集 描述 的 程序 
动态 转换 成 用 自身 CPU 指令 集 描述 的 形式 。 这 种 转换 有 些 是 硬件 实现 的 ， 有 些 则 是 软件 实 
现 的 。 硬 件 实现 的 转换 通常 会 设计 一 组 专用 的 处 理 器 凌 芍 于 主 CPU 之 上 ， 完 成 指令 的 实时 
转换 。 人 BIOS 中 ， 在 装 入 用 户 程序 之 前 ， 完 成 动态 
转换 。 当 然 ， 无 论 是 哪 种 实现 技术 ， 可 以 肯定 的 是 它们 都 比 操作 系统 更 低级 。 值 得 注意 的 
是 ， 在 最 初 的 设计 方案 中 ， 这 种 转换 并 不 一 定 是 动态 的 ， 也 可 能 是 静态 的 。 不 过 ， 由 于 应 用 
领域 的 特殊 性 ， 动 态 转换 比 静 态 转换 的 优势 明显 得 多 。 在 现代 编译 技术 中 ， 通 常 将 这 类 转换 
技术 视 作 一 种 特殊 的 编译 方式 ， 只 不 过 其 源 程序 与 目标 程序 都 是 二 进 制 形式 的 ， 因 此 ， 习 惯 
上 将 其 称 为 “二 进 制 翻译 ”。 二 进 制 翻译 是 动态 编译 技术 中 一 个 非常 重要 的 领域 ， 稍 后 将 作 
相关 介绍 。 下 面 先 介绍 动态 编译 技术 的 一 些 基 本 概念 。 
所 谓 的 “动态 编译 器 ”就 是 指 将 部 分 编译 工作 延 后 至 运行 时 进行 的 编译 器 。 而 动态 纺 
译 技术 研究 的 就 是 如 何 花费 较 少 的 时 间 ， 以 获得 更 优化 的 目标 代码 。 因 此 ， 在 一 定 程 度 
上 ， 对 于 动态 编译 器 而 言 ， 编 译 时 间 可 能 比 代 码 质 量 更 重要 。 这 完全 打破 了 静态 优化 技术 
的 传统 观念 ， 许 多 耗 时 费力 的 分 析 算 法 是 很 难 被 动态 编译 器 接受 的 。 说 到 这 里 ， 读 者 应 该 
树立 一 个 观点 ， 那 就 是 动态 编译 通常 并 不 苛求 一 次 编译 完成 ， 将 整个 编译 过 程 分 成 多 次 进 
行 是 可 以 接受 的 。 
目前 ， 动 态 编译 技术 的 主要 应 用 领域 有 如 下 几 个 : 
(1) 动态 语言 的 实现 。 例 如 ，Lisp、Perl、Python、Smalltalk、Ruby 等 都 属于 动态 语 
。 这 类 语言 的 虚拟 机 或 者 运行 环境 通常 就 是 一 个 动态 编译 器 ， 它 们 的 工作 就 是 在 程序 运行 
过 程 中 ， 实 现 将 低级 IR 描述 的 可 执行 程序 动态 编译 成 二 进 制 形式 。 当 然 ， 这 个 过 程 对 于 用 
是 完全 透明 的 。 
(2) 动态 二 进 制 翻译 。 这 类 应 用 需求 与 动态 编译 的 最 初 原型 比较 相似 。 不 过 ， 在 今天 的 
硬件 体系 中 ， 实 现 转 换 已 经 不 再 是 终极 目标 了 ， 如 何 得 到 更 优 的 目标 代码 是 人 们 所 关注 的 。 
这 种 技术 在 目标 机 移植 方面 是 非常 有 用 的 ， 也 是 CPU 设计 厂商 重点 关注 的 技术 。 目 前 ， 
Intel、IBM、HP 等 知名 公司 都 正在 致力 于 该 领域 的 研究 。 
(3) 动态 优化 技术 。 编 译 优化 通常 是 指 静态 优化 ， 不 过 ， 有 些 特殊 的 代码 情景 是 静态 优 
化 无 能 为 力 的 ， 笔 者 稍 后 举例 。 在 这 种 情况 下 ， 如 果 试 图 进一步 优化 ， 那 么 ， 动 态 优化 将 是 
唯一 的 选择 。 
目前 ， 关 于 动态 编译 的 技术 资源 并 不 太 多 ， 仅 限于 一 些 论文 研究 。 因 此 ， 本 书 也 不 打 
深入 探讨 动态 编译 的 相关 理论 话题 ， 只 想 结合 几 个 经 典 的 研究 实例 ， 曾 述 相关 的 基本 概念 ， 
以 便 读者 对 动态 编译 有 一 定 的 认识 。 
10.3.2 ”运行 时 特定 化 
特定 化 〈specialization) 是 一 种 依据 程序 及 上 下 文 环境 完成 的 程序 变换 技术 。 根 据 执行 
时 刻 的 不 同 ， 程 序 特定 化 又 可 以 分 为 编译 时 特定 化 和 运行 时 特定 化 。 其 中 ， 编 译 时 特定 化 是 
静态 优化 的 话题 ， 暂 不 作 讨论 。 这 里 ， 只 关注 运行 时 特定 化 的 相关 技术 。 
运行 时 特定 化 (run-time specialization) 指 的 就 是 该 特定 化 的 工作 是 在 程序 运行 过 程 中 完 
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成 的 。 那 么 ， 研 究 运 行 时 特定 化 的 意义 是 什么 昵 ? 事实 上 ， 其 意义 是 非常 深远 的 ， 这 里 简单 
提 两 点 : 
(1) 程序 封装 技术 限制 了 静态 编译 器 的 分 析 、 优 化 范围 ， 使 得 编译 器 无 法 得 到 关于 程序 


整体 的 结构 信息 。 例 如 ， 用 户 程序 依赖 于 某 个 二 进 制 共享 库 。 那 么 ， 在 静态 编译 中 ， 这 个 共 
享 库 对 于 编译 器 是 一 个 黑 盒 。 对 其 进行 任何 数据 流 、 控 制 流 分 析 都 是 徒劳 的 ， 因 此 ， 这 种 情 
况 对 于 优化 是 非常 不 利 的 。 即 使 是 过 程 间 优化 对 此 也 是 束手无策 的 。 

(2) 面向 对 象 技术 的 动态 绑 定 机 制 也 为 静态 分 析 带 来 了 不 便 。 

在 现代 编译 器 设计 中 ， 类 似 的 应 用 需求 将 日 益 增 多 。 这 里 ， 笔 者 举 一 个 简单 的 实例 ， 如 
表 10-2 所 示 。 


< 


表 10-2 动态 优化 示例 


(a) (b) 


extern int aa(); 
main() 


{ 


int aa() 


printf(“%d”,aa()); return 10; 


} 


如 果 (a)、(b) 两 个 函数 是 在 同一 个 项 目 中 ， 那 么 ， 应 用 过 程 间 优 化 就 很 容易 实现 常量 传 
播 。 但 如 果 (b) 存 在 于 一 个 二 进 制 的 共享 库 (注意 ， 不 是 obj 文件 ) 中， 任何 静态 优化 都 将 无 
能 为 力 。 当 然 ， 在 不 苛求 的 情况 下 ， 即 使 不 进行 优化 也 是 可 以 接受 的 。 不 过 ， 在 动态 编译 技 
这 类 程序 通常 可 以 得 到 更 优 的 效果 。 在 运行 过 程 中 ， 动 态 分 析 aa0 函 数 的 返回 值 是 完 
全 可 能 的 ， 因 此 ， 进 一 步 的 常量 传播 是 有 意义 的 。 而 运行 时 特定 化 的 工作 就 是 尽 可 能 分 析 得 
到 这 种 特殊 值 的 集合 ， 以 便 产 生 更 优 的 目标 代码 。 
在 运行 时 特定 化 领域 中 ，UW Dynamic Compilation 〈 缩 写 为 “DyC”) 是 一 个 比较 经 典 的 
实例 ， 它 是 由 华盛顿 大 学 动态 编译 器 小 组 设计 与 实现 的 。 下 面 ， 简 单 介 绍 一 下 DyC。 
DyC 是 一 个 基于 运行 时 特定 化 实现 的 动态 C 编译 器 ， 它 借助 于 一 些 用 户 标记 实现 运行 

时 的 特定 化 。DyC 包括 一 个 静态 编译 组 件 和 一 个 动态 编译 组 件 ， 结 构 如 图 10-2 所 示 。 
其 中 ， 静 态 编译 组 件 根据 输入 源 程序 生成 三 个 输出 部 分 : 机 器 码 模板 、 设 置 代 码 、 指 导 
命令 。 机 器 码 模板 中 包含 了 一 些 空洞 ， 以 回填 存储 运行 时 计算 得 到 的 常量 值 。 而 设置 代码 则 
] 计算 运行 时 常量 的 值 。 指 导 命 令 则 用 于 指导 如 何 应 用 模板 及 设置 代码 生成 可 执行 程序 。 
动态 编译 组 件 则 遵循 指导 命令 来 复制 机 器 码 模板 ， 并 将 常量 值 填充 到 模板 的 空洞 中 。 


— 
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图 10-2 DyC 的 总 体 结构 


GCC 内 核 与 现代 编译 技术 概述 | 第 10 章 


不 过 ， 值 得 注意 的 是 ， 动 态 优化 是 不 能 也 不 可 能 代替 静态 优化 的 。 由 于 动态 优化 对 时 间 


的 要 求 比 较 苛 刻 ， 因 此 ， 设 计 者 通常 会 在 静态 纺 
化 的 工作 。 事 实 上 ， 动 态 优 化 是 在 静态 优化 的 基 而 
变 成 编译 器 的 主体 优化 。 在 DyC 中 ， 静 态 编译 组 件 会 基于 机 器 模板 进行 大 量 的 静态 全 局 优 
化 ， 这 些 优化 对 于 运行 时 特定 化 是 相当 有 用 的 。 


在 DyC 中 ,静态 编译 组 件 只 编译 未 被 


而 对 于 动态 区 域 ， 静 态 编译 组 件 的 处 理 如 下 : 


j 户 标识 为 动态 


译 时 尽 可 能 提高 代码 的 质量 ， 以 减轻 动态 优 
上 追求 更 完美 的 过 程 ， 而 不 是 将 动态 优化 


区 域 (dynamic region) 的 函数 ， 


(1) 标识 动态 区 域 中 的 变量 、 表 达 式 在 运行 时 刻 将 是 常量 。 在 算法 实现 中 ，DyC 是 基于 


SSA 形式 进行 数据 流 分 析 的 。DyC 采用 了 两 遍 数 据 流 分 析 
量 ， 而 第 2 遍 则 用 于 分 析 运 行 时 刻 常量 的 到 达 定 值 信息 。 


(2) 将 每 个 动态 区 域 划分 为 设置 子 图 和 模板 代码 子 图 ， 


(3) 应 用 标准 的 优化 算法 进行 控制 流 相 关 优 化 。 


(4) 生成 机 器 代码 及 指导 命令 。 


， 第 1 遍 用 于 标识 运行 时 刻 的 常 


并 替换 区 域 原始 的 子 图 。 


不 过 ， 手 工 插入 指导 性 的 注释 来 标识 程序 是 一 项 麻烦 的 工作 ，Calpa 系统 解决 了 这 个 问 
题 ， 实 现 了 自动 注释 的 功能 。 它 结合 了 profile 信息 和 程序 分 析 来 自动 获得 注释 。 关 于 DyC 
的 更 多 资源 ， 读 者 可 以 访问 http://www.cs.washington.edu/research/dyncomp/。 


10.3.3 动态 二 进 制 翻译 


二 进 制 翻译 技术 ， 也 称 为 “BT (Binary Translation)”， 是 一 种 即时 编译 技术 ， 它 的 工 


作 是 将 源 体系 结构 编译 生成 的 二 进 制 代码 动态 翻译 为 可 以 在 目标 体系 结构 上 运行 的 代 


码 。 动 态 二 进 制 翻译 及 优化 系统 使 得 程序 可 以 在 无 需 台 


i 


植 ， 对 丰富 新 兴 目 标 机 的 软件 系统 是 有 积极 意义 


新 编译 的 情况 下 进行 目标 机 移 


的 。 目 前 ， 比 较 著 名 的 二 进 制 翻译 系统 


包括 Intel 的 IA-32 Execution Layer、IBM 的 DAISY、Transmeta 的 CMS 等 。 该 技术 也 被 


应 用 于 虚拟 机 中 ， 如 著名 的 VMware。 下 面 ， 


构 ， 如 图 10-3 所 示 。 


结合 图 10-3， 笔 者 简单 介绍 一 下 动态 二 进 制 翻 译 的 过 忆 


先 来 看 看 动态 二 进 制 翻译 系统 的 基本 结 


口 


是， 可 以 分 为 如 下 几 步 : 


(1) 程序 加 载 。 当 用 户 执行 一 个 源 目 标 机 程序 时 ， 目 标 机 平台 将 调用 加 载 器 装 入 程序 。 


硬件 实现 的 。 当 然 ， 如 果 操 作 系统 已 经 实现 了 目标 机 移植 ， 
系统 之 上 也 是 完全 可 行 的 。 在 这 种 情况 下 ， 操 作 系统 会 将 该 程序 的 控制 权 完 全 交 给 二 进 制 翻 


译 系统 。 


注意 ， 这 个 加 载 器 可 能 是 建立 在 操作 系统 上 的 ， 也 可 能 是 烧 录 在 BIOS 中 的 ， 甚 至 是 依赖 于 


那么 ， 将 二 进 制 翻译 建立 在 操作 


(2) 解释 执行 。 由 BT 控制 器 启动 解释 器 进行 解释 执行 。 与 普通 的 解释 器 不 同 ， 在 这 
个 过 程 中 ， 解 释 器 需要 收集 源 程序 的 相关 信息 ， 以 便 进 行动 态 翻译 与 优化 。 根 据 程 序 执行 


的 90-10 定律 ， 程 序 执行 的 “热点 ”是 解释 器 必须 关注 的 。 当 然 ， 收 集 工作 有 时 也 可 以 和 
硬件 完成 ， 一 些 现代 CPU 提供 了 比较 丰富 的 状态 寄存 器 ， 


过 程 。 


以 便 翻 译 器 动态 分 析 程 序 执行 的 


(3) 提取 程序 片段 。“ 热 点 ”是 动态 编译 与 优化 的 主要 工作 对 象 ， 因 此 ， 提 取 与 分 析 


“热点 ”片段 是 非常 重要 的 。 


(4) 动态 翻译 程序 片段 。 将 “热点 ”翻译 成 本 地 代码 执行 是 动态 翻译 器 的 任务 ， 在 此 过 
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程 中 ， 动 态 翻 译 器 将 对 “热点 ”片段 进行 一 些 动态 优化 。 翻 译 生 成 的 本 地 代码 片段 将 被 保存 
在 cache 中 ， 以 便 下 次 调用 该 程序 片段 时 ， 直 接 执 行 本 地 代码 片段 ， 以 提高 程序 执行 效率 。 
这 里 的 cache 是 指 动态 编译 器 拥有 的 一 组 存储 资源 ， 并 不 一 定 是 硬件 体系 中 的 cache。 在 实 
际 系统 中 ，cache 通常 被 分 为 “block cache” 与 “trace cache”。 值 得 注意 的 是 ，cache 一 般 不 
会 太 大 ， 因 为 动态 翻译 器 与 用 户 争夺 存储 资源 是 不 能 接受 的 。 因 此 ， 就 需要 考虑 cache 管理 
的 问题 了 。 与 操作 系统 页 面 管理 类 似 ，cache 管理 也 存在 一 个 淘汰 机 制 。 事 实 上 ， 哪 些 片 段 
应 该 被 淘汰 有 时 是 很 难 评估 的 。 当 然 ， 有 些 动态 翻译 器 也 会 将 本 地 代码 片段 永久 存放 在 外 存 
上 ， 在 外 存 允 许 的 情况 下 ， 这 种 方案 可 能 更 好 。 


CE 一 属 


| 
| 
| 
| 
目标 机 程 
序 片 段 


图 10-3 动态 二 进 制 翻译 系统 的 基本 结构 


这 里 ， 笔 者 简单 谈 谈 动态 二 进 制 翻译 的 几 个 关键 问题 : 

(1) 存储 系统 。 根 据 目 标 机 的 结构 ， 二 进 制 翻译 通常 会 涉及 寄存 器 、cache、 主 存 等 存 
储 系统 。 对 于 不 同 目标 机 之 间 的 映射 关系 是 设计 者 需要 考虑 的 。 当 前 ， 寄 存 器 、cache 相对 
复杂 一 些 。 在 使 用 寄存 器 时 ， 必 须 兼 顾 专 用 寄存 器 、 状 态 寄 存 器 、 标 志 寄 存 器 等 。 而 cache 
管理 中 ， 更 多 关注 的 是 cache 的 命中 率 。 在 获取 cache 命中 率 的 信息 方面 ， 动 态 编译 器 比 静 
态 编译 器 有 利得 多 。 在 一 些 现代 体系 结构 的 目标 机 中 ， 甚 至 还 设置 了 一 些 用 于 记录 cache 命 
中 率 、cache 失效 率 、 程 序 热点 等 的 寄存 器 组 ， 以 便 应 用 程序 能 更 高 效 地 获取 相关 信息 。 这 
类 信息 对 于 动态 优化 是 极其 重要 的 ， 在 此 之 前 ， 动 态 编译 器 必须 依赖 于 软件 方式 记录 。 在 主 
存 方 面 ， 数 据 映射 是 一 个 问题 。 如 x86 平台 采用 的 是 小 尾 端的 形式 ， 而 MIPS 既 支 持 小 尾 
端 ， 也 支持 大 尾 端 ， 而 另外 一 些 平台 可 能 只 支持 大 尾 端 。 

(2) 实时 性 问题 。 正 如 前 面 所 说 的 ， 实 时 性 对 于 二 进 制 翻译 是 极其 重要 的 ， 因 此 ， 在 某 
些 情况 下 ， 实 时 性 很 强 的 代码 需要 使 用 启发 式 的 算法 进行 提前 预测 ， 并 进行 相关 翻译 生成 。 
(3) 空间 耗费 。 动 态 编译 器 本 身 对 于 存储 资源 的 耗费 也 是 关键 的 问题 。 由 于 动态 编译 器 
与 用 户 程序 是 运行 在 同一 时 刻 的 ， 因 此 ， 动 态 编译 器 对 存储 资源 的 耗费 可 能 会 对 用 户 程序 的 
运行 产生 一 定 的 影响 。 当 然 ， 这 也 许 是 不 可 避免 的 ， 但 并 不 意味 着 是 无 限制 的 。 无 论 是 优化 
还 是 代码 生成 ， 动 态 编译 器 设计 者 都 必须 时 时 关注 这 个 指标 ， 绝 不 可 能 像 静态 编译 器 那样 不 
计 成 本 地 耗费 用 户 的 存储 空间 。 

(4) 效率 问题 。 在 动态 二 进 制 翻译 中 ， 研 究 代码 的 重用 率 是 提高 翻译 效率 的 有 效 方法 。 
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理想 情况 下 ， 如 果 一 次 翻译 生成 的 代码 被 执行 的 次 数 较 多 ， 那 么 ， 就 可 以 在 一 定 程度 上 降低 
优化 及 生成 代码 的 代价 。 因 此 ， 有 效 地 利用 cache 管理 代码 片段 是 非常 必要 的 。 不 过 ， 当 组 
|}， 代 码 片段 的 淘汰 将 是 一 个 复杂 的 问题 。 与 操作 系统 页 面 淘汰 问题 类 似 ， 试 图 寻 


存 被 填 满 时 
找 一 个 优化 的 方案 并 不 容易 。 
(5) 体 


的 才 是 可 靠 的 。 


在 动态 二 进 外 


系统 。 在 


国内 ， 动 态 二 进 


DigitalBridge 就 是 在 Linux/MIPS 了 
不 同 ，DigitalBridge 
存放 于 block cache 上 


系 结构 。 不 同 结构 目标 机 之 间 的 差异 通常 是 非常 大 的 ， 可 能 还 不 仅 局 限于 存储 系 
统 、 指 令 系统 方面 。 有 时 ， 中 断 、 流 水 线 等 也 是 值得 关注 的 。 这 些 因 


素 对 指令 调度 、 代 码 生 
成 等 都 是 有 一 定 影响 的 。 在 笔者 看 来 ， 硬 件 结构 的 问题 并 不 能 依赖 于 想象 ， 只 有 实践 证 明 过 


优化 并 生成 优化 后 的 片段 ， 


Ph。 然后 ， 


将 其 存放 于 trace cache 中。 这 种 处 理 方 法 在 二 进 制 翻译 中 的 应 用 


很 广泛 ， 主 要 原因 就 是 解释 器 的 执行 效率 通常 不 能 令 人 满意 。 


104 并 行 编译 技术 简介 


并 行 编译 技术 基础 
高 性 能 体系 结构 的 发 展 对 传统 编译 器 提出 了 挑战 。 在 过 去 的 二 十 


10.4.1 


发 展 是 惊人 的 。 如 今 ， 在 
算 机 的 软件 系统 的 下 


E 


高 性 能 计算 领域 ， 并 行 计算 机 的 应 用 非 党 广泛。 当然 ， 基 于 并 行 计 


基 翻 译 领域 中 ，Queensland 大 学 的 UQDBT 是 一 个 不 错 的 多 源 多 目标 的 研究 
剖 翻 译 主 要 应 用 于 “龙芯 ”的 平台 移植 ， 由 中 科 院 软件 所 研发 的 
F 台 上 动态 翻译 执行 Linus/x86 的 程序 。 与 先前 讨论 的 模型 
并 不 解释 执行 源 程序 ， 而 是 直接 翻译 生成 未 优化 的 本 地 代码 片段 ， 将 其 
在 执行 本 地 代码 片段 的 过 程 中 ， 分 析 程 序 “ 热 路 径 


”再 进行 


技术 而 言 ， 
要 的 部 分 ， 
在 20 


种 并 行 处 理 机 制 ， 因 此 ， 如 何 充分 利 


发 也 是 极其 习 


统 。 熟 悉 并 行 计算 的 读者 应 该 明白 基于 并 行 计算 机 进行 程序 设计 是 


虑 与 处 理 的 细节 是 非常 复杂 的 。 央 
并 行程 序 设 计 ， 这 就 是 } 


多 年 里 ， 并 行 计算 机 的 


EE 要 的 ， 如 并 行 操作 系统 、 并 行 编译 器 等 。 相 对 于 动态 编 i 
并 行 编译 的 历史 稍 久 远 些 。 并 行 编译 系统 是 并 行 计算 机 系统 软件 中 的 一 个 十 分 重 
也 是 现代 编译 技术 领域 的 一 个 研究 热点 。 
比 纪 70 年 代 ， 并 行 体系 结构 发 展 飞快 ， 在 不 同 层次 上 ， 硬 件 以 不 同方 式 实现 了 多 
硬件 的 并 行 处 理 能 力 是 对 软件 设计 提出 的 新 要 求 。 在 
并 行 系统 软件 领域 ， 在 过 去 的 20 年 中 ， 人 们 对 并 行 编译 技术 的 研究 热情 超过 了 并 行 操作 系 


预 


项 艰巨 的 任务 ， 需 要 考 


1. 并 行 编译 系统 的 基本 结构 


= 


完整 的 并 行 


图 10-4 所 示 。 


并 行 化 工具 的 主要 功 外 
幅 入 在 并 行 编译 器 中 。 


ij 译 系统 包括 并 行 化 工具 、 并 行 编译 器 、 并 行 运 


就 是 


并 行 编译 器 包括 预 处 理 


后 的 源 程 序 
比较 类 似 的 。 


FF ， 其 功能 是 根据 } 


句 
前 端 则 是 对 预 处 理 后 的 源 程序 进行 词法 、 语 法 分 析 ， 将 


、 前 端 、 主 处 理 器 、 后 端 4 个 部 分 。 预 处 型 
行 编译 命令 对 源 程序 进行 改写 ， 这 与 普通 编译 器 的 预 处 理 器 是 


其 转换 为 民 


此 ， 人 们 更 希望 像 在 串 行 机 上 编写 高 级 语言 程序 一 样 完 成 
行 编译 器 设计 的 源 动力 。 


了 库 等 。 其 基本 结构 如 


将 串 行 程序 并 行 化 ， 它 可 以 独立 于 并 行 编译 器 存在 ， 也 可 以 


器 的 输入 是 并 行 化 


多 式 。 主 
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B ER i 
罗 、 编译 器 设计 之 路 
Se 


处 理 器 的 工作 则 是 完成 基于 IR 的 处 理 与 优化 。 后 端 是 将 下 转换 为 并 行程 序 ， 同 时 完成 面向 


并 行 体系 结构 的 优化 。 


当然 ， 除 了 并 行 编译 器 外 ， 并 行 运 行 库 也 是 必 不 可 少 的 ， 其 


串 行 源 程序 


并 行 化 工具 


并 行 源 程序 


上 


漠 
全 
嵌 
变 


并 行 化 运行 库 


功能 与 普通 的 运行 库 类 似 。 


并 行 目标 程序 


图 10-4 


2. 并 行 编译 系统 的 核心 技术 


并 行 编译 系统 的 基本 结构 


并 行 编译 系统 的 核心 技术 包括 : 依赖 关系 分 析 、 程 序 并 行 化 、 并 行 编译 技术 、 并 行 运行 


库 。 下 面 ， 笔 者 对 此 作 简单 介绍 。 


(1) 依赖 关系 分 析 。 通 常 ， 程 序 的 


在 不 破坏 原 有 依赖 关系 的 基础 上 并 行 执行 的 。 


各 个 部 分 之 间 是 存在 


Le 


定 依赖 关系 的 ， 并 行 计算 就 是 
因此 ， 依 赖 关 系 分 析 的 理论 与 技术 是 并 行 计 算 


和 助 ， 讨 论 并 行 优化 技术 或 者 


的 基础 ， 也 是 并 行 编译 技术 讨论 的 重点 之 一 。 没 有 依赖 关系 的 加 


生成 技术 都 是 没有 意义 的 。 例 如 ， 两 个 


(2) 程序 并 行 化 。 在 并 行 处 理 过 程 


减少 依赖 关系 又 是 非常 困难 的 。 因 此 ， 


函数 都 访问 一 个 全 局 变量 ， 那 么 ， 则 认为 它们 之 间 是 
存在 依赖 关系 的 ， 如 果 随 意 并 行 化 ， 将 无 法 保存 程序 的 正确 性 。 


P， 尽 可 能 挖掘 程序 的 并 行 性 是 编译 器 的 职责 。 正 
先前 讨论 的 ， 存 在 依赖 关系 的 部 分 是 不 能 并 行 化 的 。 然 而 ， 让 用 户 在 程序 设计 过 程 中 尽 可 
从 


rl 
zy 起 
二 | 


编译 器 不 得 不 通过 一 些 等 价 的 程序 变换 ， 以 消除 


依赖 关系 ， 以 便 进 行 最 大 限度 的 并 行 化 ， 这 种 等 价 变换 就 称 为 
化 中 ， 循 环 的 处 理 是 比较 棘手 的 ， 因 为 它 的 依赖 关系 比 顺序 结构 复杂 得 多 。 然 而 ， 由 于 循环 


“程序 并 行 化 ”。 在 程序 并 行 


对 程序 执行 的 性 能 影响 是 比较 大 的 ， 因 
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的 部 分 。 在 程序 并 行 化 技术 


此 ， 又 是 最 需要 并 行 处 型 


语句 


HH 


句 ， 以 消除 依赖 关系 。 


何 程序 并 行 
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， 人 们 重点 关注 的 就 是 循环 的 并 行 化 处 到 


。 从 变换 的 角度 而 言 ， 主 要 可 以 


层次 的 变换 和 迭代 层次 的 变换 。 


化 的 前 提 都 是 安全 。 与 优化 类 人 


其 中 ， 语 句 层次 的 变换 主要 着 
而 迭代 层次 的 变换 则 更 关注 改变 循环 体 
以 ， 语 义 等 价 是 编译 技术 永恒 的 话题 。 


(3) 并 行 编译 技术 。 
理 、 并 行 语言 处 理 、 并 行 目 标 程序 组 织 等 


这 里 主要 指 


的 是 用 了 


可 移植 性 、 并 行 执行 的 


语言 时 ， 尽 可 能 减 小 对 目 


三 类 : 支持 多 任务 并 行 
并 行程 序 设计 的 运行 库 。 


行 语言 中 ， 由 


(4) 并 行 运行 库 。 


效率 。 用 户 通常 希望 程序 的 可 移植 性 
标 机 器 的 依赖 。 不 过 ， 


分 为 两 种 形式 : 


眼 于 改变 循环 体 中 的 语 
迁 代 的 执行 顺序 。 当 然 ， 任 


实现 并 行 编译 器 的 相关 技术 ， 包 括 向 量 语言 处 


等 。 从 用 户 角度 而 言 ， 主 要 有 两 个 方面 的 需求 : 程序 
较 好 ， 也 就 是 说 ， 在 设计 与 实现 


从 提高 程序 执行 效率 的 角度 来 说 ， 要 更 好 地 
利用 目标 机 器 的 资源 ， 发 挥 目标 机 器 的 特性 ， 就 不 得 不 在 设计 语言 时 充分 考虑 相关 的 因素 。 


因此 ， 这 两 方面 矛盾 的 需求 对 并 行 编译 器 的 设计 提出 了 巨大 的 挑战 。 


在 并 行 操 作 系 统 、 并 行 
行 库 提供 了 一 种 并 行程 序 


3. 并 行 编译 技术 的 发 展 趋势 


实践 证 明 ， 一 门 学 科 、 
技术 的 发 展 很 大 程度 上 依赖 于 并 行 
导 地 位 的 。20 世纪 70 年 代 中 后 期 ， 推 出 了 多 个 在 串 行 
1991 年 ANSI 和 ISO Fortran 90 标准 


首 行 程序 设计 的 运行 库 、 支 持 数 据 


于 在 科学 计算 中 的 人 


的 发 布 标志 着 癌 量 Fortran 语言 完 
EC 势 ，Fortran 的 研究 远 胜 于 C 或 其 他 语言 。 


确 ， 就 目前 的 研究 成 果 
网 或 互联 网 的 分 布 并 行 计 算 将 在 未 来 的 10 年 中 得 到 迅速 发 展 。 
用 户 的 视野 ， 而 不 再 停 


并 行 计 算 更 关注 一 此 
性 


留 在 实验 室 中 。 


些 有 实际 应 


与 一 味 追 求 高 峰值 性 能 的 超级 计算 机 不 同 ， 网 络 分 布 
j 价 值 的 因素 ， 
等 。 届 时 ， 并 行程 序 设计 、 并 行 编译 技术 将 迎 


10.4.2 并行 计 算 机 及 其 编译 系统 


机 、 分 布 存储 器 并 行 计 
1. 向 量 计算 机 及 其 编译 系统 


过 ， 它 的 实现 形式 却 早 
对 于 向 量 语 言 的 标准 化 
从 体系 结构 和 编译 器 实现 来 看 ， 数 组 质 
而 向 量 计算 机 就 是 指 具 有 高 效 的 向 量 处 理 外 
通 计 算 机 也 同样 具有 向 量 处 理 能 力 ， 忆 
在 普通 标量 计算 机 中 ， 


昂 


在 高 性 能 计算 领域 ， 并 行 体系 结构 主 


FE 要 可 分 为 三 类 : 


这 三 类 并 行 结构 及 其 


机 。 下 面 ， 笔 者 对 ; 


H 认 这 一 观点 。 


语言 及 并 行 编译 技术 都 还 不 成 熟 的 情况 下 ， 运 
设计 的 手段 。 从 并 行程 序 设计 技术 角度 来 说 ， 并 行 运 行 库 可 以 分 为 
程序 设计 的 运行 库 、 支 持 消 息 传 递 # 


一 项 技术 的 发 展 与 成 熟 与 它 的 应 用 是 分 不 开 的 。 因 此 ， 并 行 编译 
语言 的 成 熟 与 流行 。 在 并 行 语言 方面 ，Fortran 是 占 绝对 主 


Fortran 语言 上 扩充 而 来 的 向 量 语言 。 


有 些 读 者 可 能 认为 : 并 行 计算 是 实验 室 的 产物 ， 离 普通 用 
而 言 ， 笔 者 并 不 否 


不 过 ， 很 多 研究 已 经 


成 了 标准 化 工作 。 在 3 


户 的 应 用 需求 相距 其 远 。 的 


最 终 ， 这 一 


表明 ， 基 于 局 域 
技术 将 进入 普通 


如 负载 平衡 、 共 享 计算 资源 、 网 络 安全 、 可 靠 


来 新 的 纪元 。 


向 量 是 一 个 数学 概 : 


念 ， 就 是 指 类 


已 深入 人 心 。 在 程序 


型 相同 的 数据 项 的 集合 
设计 语言 中 ， 向 量 


向 量 计 算 机 、 共 享 


。 向 量 的 概念 看 


编译 系统 作 和 信 


享 存储 器 并 行 计 
订单 介绍 。 


似 有 些 神秘 ， 不 


时 的 实现 形式 就 
有 里 程 碑 意义 的 Fortran 90 也 被 称 为 “数组 语言 ”。 


果 作 就 是 向 量 操作 的 一 种 实现 形式 。 


g 么 ， 它 们 是 不 是 向 量 计 入 


是 数组 。 例 如 ， 
其 主要 原因 就 是 


E 力 的 计算 机 系统 。 有 读者 可 


机 呢 ? 答案 


向 量 处 理 是 基于 软 人 


必须 依赖 程序 实现 。 


而 这 里 所 说 的 所 


量 处 到 


能 力 通常 是 指 硬 人 


当天 > 


实现 的 。 例 如 ， 在 C 语言 中 ， 计 


层次 上 的 ， 


已 ,5 Hz 
能 疑惑 ， 似 乎 普 
天 是 ax 
显然 是 否定 的 。 


B ER i 
辐 、 编译 器 设计 之 路 
de 


计算 机 可 以 通过 硬件 指令 直接 完成 复杂 的 向 量 运 算 ， 而 不 需要 借助 软件 实现 。 对 于 超级 计算 
技术 而 言 ， 向 量 计算 对 提高 超大 规模 科学 计算 的 性 能 是 极其 重要 的 ， 尤 其 在 大 型 机 、 巨 型 机 
等 系统 中 。 

与 普通 标量 计算 不 同 ， 向 量 计 算 对 计算 机 的 寄存 器 组 、 流 水 线 处 理 、 存 储 访问 控制 都 提 
出 了 新 的 需求 。 通 常 ， 需 要 计算 机 能 够 一 次 读 取 、 存 入 一 组 数据 并 执行 相关 的 计算 处 理 。 因 
此 ， 除 了 标量 功能 部 件 之 外 ， 向 量 计 算 机 还 专门 设 有 向 量 寄存 器 、 向 量 长 度 寄存 器 、 向 量 屏 
蔽 寄存 器 、 向 量 流水 功能 部 件 和 向 量 指令 系统 等 。 这 里 ， 以 两 个 向 量 求 和 为 例 作 简 单 说 明 ， 
如 图 10-5 所 示 。 


流水 线 部 分 


10-5 向 量 求 和 的 处 理 过 程 


在 图 10-5 中 ， 假 设 A、B、C 三 个 向 量 的 长 度 都 是 64， 那 么 ， 此 求 和 操作 需要 进行 的 迭 
代 次 数 为 1， 这 比 普通 标量 计算 机 需要 的 64 次 迭代 高 效 得 多 。Fortran 90 的 描述 形式 如 下 : 


C(1:64) = A(1:64) + B(1:64) 
但 是 ， 更 多 时 候 ， 用 户 习 惯 于 书写 如 下 的 简单 循环 形式 : 


DO [=1,64 
CD=AMD+BOD 
ENDDO 


当然 ， 这 两 种 形式 是 完全 等 价 的 ， 因 此 ， 并 行 化 的 任务 就 是 将 后 者 转换 为 前 者 。 不 过 ， 
这 种 转换 是 非常 复杂 的 ， 不 像 读 者 想象 的 那样 简单 。 
下 面 ， 笔 者 再 给 出 一 个 例子 : 
DO I=1,64 
A(+3)= A(D + BO 
ENDDO 
试想 一 下 ， 是 否 可 以 将 其 简单 地 将 其 转换 为 : 


A(4:67) = A(1:64) + B(1:64) 
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简单 ， 
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这 就 是 依赖 关系 分 析 要 解决 的 问题 。 
2. 共享 存储 器 的 并 行 计算 机 及 其 编译 系统 


享 存储 器 的 并 行 计 
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流 ) 体 


系 结构 。 如 


在 共享 存储 器 的 并 行 
是 ， 一 个 处 理 书 
用 户 控制 的 ， 硬 伯 
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机 了 


图 10- 


计 


依赖 关系 的 情况 是 不 可 向 量化 的 。 那 么 ， 哪 些 避 


个 迭代 完 的 结果 将 影响 后 续 迭 代 的 过 程 ， 
; 况 不 可 以 转换 呢 ? 


4 况 可 以 转换 ， 而 哪 


FE 要 由 多 个 处 


组 成 。 处 理 机 可 以 是 向 量 机 ， 也 可 以 是 标 
图 10-6 所 示 。 
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< 享 存储 器 的 并 行 计 算 机 的 基本 结构 
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因此 ， 这 
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机 。 系 统一 般 是 MIMD (多 指令 流 多 数据 
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机 相 比 ， 共 享 存 
算 机 可 以 并 行 执 行 多 个 循环 迭代 、 程 序 块 或 函数 。 如 果 所 属 的 处 至 


庄 器 的 并 行 计 


该 系统 的 并 行 
用 的 达 代 ， 而 高 层次 上 ， 则 上 


能 力 将 更 为 


基 了 


(1) 串 行 程序 并 行 化 。 识 别 与 分 析 输 入 串 行 源 和 
划分 为 多 个 可 并 行 执行 的 部 分 ， 以 便 多 处 理 
[先前 讨论 的 ， 并 行 化 的 主要 对 象 仍然 是 循环 迭代 ， 也 就 是 将 循环 枕 代 形式 转 


析 完 成 的 。 正 丸 
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主要 指 的 是 一 些 与 并 行 机 相关 的 语法 成 分 ， 如 并 行 循环 结构 、 并 行 段 结构 、 并 行 区 结构 等 。 
除 此 之 外 ， 编 译 器 还 需 关 注 任务 调度 、 处 理 机 分 配 、 介 


3. 分 布 存储 器 的 并 行 计算 机 及 其 编译 系统 


分 布 存 储 器 的 并 行 机 是 由 很 多 相对 独立 的 结 点 (通常 就 是 独立 的 计算 机 〉 通 过 网 络 
机 和 存储 器 。 结 点 数 是 庞大 的 。 如 图 10-7 所 示 。 
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ee 


储 器 的 并 行 计算 机 主要 是 依赖 于 微型 计算 机 的 ， 因 此 ， 其 成 本 有 其 他 两 类 并 行 计算 机 无 法 比 


拟 的 优势 。 


计算 结 点 1 计算 结 点 2 | … | 计算 结 点 n 


sma || | ri 


10-7 ”分布 存储 器 的 并 行 计算 机 的 基本 结构 


(2) 分 布 存 储 器 结构 突破 了 共享 存储 器 的 性 能 瓶颈 。 虽 然 共享 存储 器 结构 的 并 行 计算 机 


可 以 在 计算 处 理 方面 达到 高 峰值 ， 但 存储 器 的 访问 却 是 这 类 并 行 计算 机 的 瓶颈 。 而 分 布 存 储 


器 结构 的 方案 却 不 存在 这 种 瓶颈 ， 从 而 可 以 追求 更 高 的 峰值 。 不 过 ， 值 得 注意 的 是 ， 这 种 方 
案 也 不 是 绝对 完美 的 ， 网 络 性 能 将 在 很 大 程度 上 约束 并 行 执行 及 存储 器 访问 的 效率 。 

随 着 互联 网 的 普及 与 发 展 ， 分 布 存 储 器 的 并 行 计算 机 结构 已 经 成 为 当今 最 热门 的 话题 之 
一 。 近 年 来 ， 被 炒 得 热火 朝天 的 “ 云 计 算 ” 也 可 以 视 为 这 种 计算 机 结构 的 商业 化 产物 。 而 分 


车 


计算 的 主要 研究 对 象 就 是 这 种 计算 机 结构 。 


作 包 括 如 下 几 项 : 


(1) 数据 分 布 。 为 了 减少 通信 资源 耗费 ， 提 高 执行 的 效率 ， 并 行 任务 与 相关 数据 的 分 布 
是 编译 器 需要 关注 的 。 虽 然 无 论 使 用 何 种 分 配 算法 ， 保 证 并 行 任务 与 相关 数据 绝对 被 分 配 在 


在 分 布 存储 器 的 并 行 计算 机 中 ， 数 据 并 行程 序 设计 语言 是 主要 的 并 行 语 言 ， 它 扩充 了 普 
通 语言 在 数据 分 布 与 并 行 处 理 方面 的 描述 能 力 。 例 如 ，Split-C、CM Fortran 等 。 数 据 并 行 语 
言 便于 用 户 简单 且 直 观 地 编写 并 行程 序 ， 而 不 必 关 注 并 行 处 理 的 细节 问题 。 

目前 ， 在 分 布 存 储 器 的 并 行 计算 机 上 的 编译 系统 主要 是 用 于 处 理 数据 并 行 语言 的 ， 其 工 


同一 个 计算 结 点 是 不 现实 的 ， 但 这 却 是 编译 器 设计 者 的 努力 方向 。 根 据 计 算 结 点 的 分 布 情 


况 ， 合 理 安排 任务 与 数据 的 布局 ， 以 减少 通信 资源 的 耗费 ， 这 是 完全 可 行 的 。 


(2) 任务 划分 。 如 何 合理 地 划分 任务 ， 也 是 实现 计算 与 参与 计算 的 数据 尽 可 能 被 分 配 到 


同一 个 计算 结 点 的 一 种 有 效 策略 。 通 常 的 任务 划分 原则 是 拥有 者 计算 ， 即 数据 在 哪个 计算 结 


点 上 ， 则 优先 考虑 由 哪个 结 点 完成 计算 任务 。 


(3) 同步 与 通信 。 主 要 工作 包括 确定 同步 与 通信 和 点、 插入 相应 的 并 行 库 子 程序 调用 、 同 


步 通 信 优 化 等 。 


[os 深入 学 习 


关于 GCC 的 学 习 ， 唯 一 建议 就 是 深入 阅读 源 代 码 。 笔 者 相信 没有 但 
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与 源 代码 媲美 。 迄 今 为 止 ， 所 能 见 到 的 关于 GCC 的 最 权威 参考 就 是 《GNU Compiler 
Collection Internals》 读者 可 以 在 GCC 的 网 站 免费 下 载 。 其 中 非常 详细 地 描述 了 GCC 的 内 
核实 现 。 不 过 ， 该 书 并 不 适合 作为 教材 阅读 ， 而 更 多 地 是 在 阅读 源 代 码 过 程 中 作为 辅助 参考 
手册 。 
关于 动态 编译 的 书籍 很 难 找到 ， 对 动态 编译 感 兴趣 的 读者 只 能 以 论文 资料 为 主 。 而 本 : 
介绍 的 DyC 也 是 一 个 非常 不 错 的 选择 ， 读 者 不 妨 关注 一 下 其 相关 的 资源 ， 或 许 对 于 了 解 
动态 编译 的 前 沿 技 术 有 一 定 帮助 。 
相对 而 言 ， 关 于 并 行 编译 技术 的 资源 与 文献 就 相对 较 多 。 这 里 ， 笔 者 推荐 一 些 并 行 编译 
方面 的 著作 。 


Hi 


1、 并 行 编译 方法 沈 志 宇 、 胡 子 昂 国防 科技 大 学 出 版 社 
说 明 : 国防 科技 大 学 是 国内 并 行 编译 领域 的 先驱 ， 因 此 ， 本 书 堪 称 国内 该 领域 的 经 典 著作 。 
2、Parallel Computing Fortran Forum(http://portal.acm.org/ citation.cfm?id= 122392) 


说 明 : 并行 Fortran 语言 的 规范 。 

3、Parallel Computing: Theory and Practice M.J Quinn McGraw-Hill 
说 明 : 本 书 以 介绍 并 行 计算 的 理论 与 实现 技术 为 主 ， 适 合 初学 者 学 习 参 考 。 

4、 编 译 原 理 《〈 紫 龙 书 ) Alfred V. Aho，Monica S. Lam，Ravi Sethi 。 机 械 工业 出 版 社 
说 明 : “ 紫 龙 书 ” 对 并 行 编译 及 其 优化 技术 也 作 了 相关 介绍 。 


5、 Optimizing Compilers for Modern Architectures, A Dependence-Based Approach 


Randy Allen, Ken Kennedy Elsevier Science 
说 明 : 这 是 并 行 编译 领域 最 权威 的 教材 。 


10.6 大 师 风 采 一 一 Alan Perlis 


Alan Jay Perlis: 美国 著名 计算 机 科学 家 ， 也 是 计算 机 程序 设计 语言 领域 的 先驱 。1922 
年 4 月 ，Perlis 出 生 于 宾夕法尼亚 州 匹兹堡 的 一 个 犹太 人 家 庭 。1943 年 ， 他 获得 卡 内 基 理 工 
学 院 化 学 学 士 学 位 。 二 战 参 军 期 间 ，Perlis 对 数学 产生 了 兴趣 ， 并 于 1949 年 、1950 年 分 别 
获得 了 麻 省 理工 学 院 数学 硕士 、 博 士 学 位 。 

1956 年 ，Perlis 加 入 了 卡 内 基 理 工学 院 ， 任 计算 机 科学 系 主任 。1966 年 ， 为 表彰 其 在 高 
级 程序 设计 语言 及 编译 器 设计 领域 的 成 就 ，Perlis 获得 了 第 一 届 图 灵 奖 。 他 的 研究 成 果 对 于 
后 来 的 Algol 语言 的 设计 与 实现 有 深远 的 意义 。 

1971 年 ，Perlis 加 入 了 耶鲁 大 学 计算 机 科学 系 ， 任 计算 机 科学 系 主任 。 他 还 当选 为 美国 
艺术 和 科学 院 院 士 及 美国 工程 院 院士 。1990 年 2 月 7 日 ，Perlis 因 心 脏 病 在 康涅狄格 州 纽 哈 
芬 去 世 。 
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